Семантическая паутина
- 1 year ago
- 0
- 0
Всеми́рная паути́на ( англ. World Wide Web) — распределённая система , предоставляющая доступ к связанным между собой документам, расположенным на различных компьютерах , подключённых к сети Интернет . Для обозначения Всемирной паутины также используют слово веб ( англ. web «паутина») и аббревиатуру WWW .
Всемирную паутину образуют сотни миллионов веб-серверов . Большинство ресурсов Всемирной паутины основано на технологии гипертекста . Гипертекстовые документы, размещаемые во Всемирной паутине, называются веб-страницами . Несколько веб-страниц, объединённых общей темой или дизайном , а также связанных между собой ссылками и обычно находящихся на одном и том же веб-сервере , называются веб-сайтом . Для загрузки и просмотра веб-страниц используются специальные программы — браузеры ( англ. browser).
Всемирная паутина вызвала настоящую революцию в информационных технологиях и дала мощный толчок развитию Интернета . В повседневной речи , говоря об Интернете, часто имеют в виду именно Всемирную паутину. Однако важно понимать, что это не одно и то же.
Всемирную паутину образуют миллионы веб-серверов сети Интернет , расположенных по всему миру. Веб-сервер — компьютерная программа , запускаемая на подключённом к сети компьютере и использующая протокол HTTP для передачи данных. В простейшем виде такая программа получает по сети HTTP-запрос на определённый ресурс, находит соответствующий файл на локальном жёстком диске и отправляет его по сети запросившему компьютеру. Более сложные веб-серверы способны в ответ на HTTP-запрос динамически генерировать документы с помощью шаблонов и сценариев .
Для просмотра информации, полученной от веб-сервера, на клиентском компьютере применяется специальная программа — веб-браузер . Основная функция веб-браузера — отображение гипертекста . Всемирная паутина неразрывно связана с понятиями гипертекста и гиперссылки . Большая часть информации в Вебе представляет собой именно гипертекст.
Для создания, хранения и отображения гипертекста во Всемирной паутине традиционно используется язык HTML ( англ. HyperText Markup Language «язык разметки гипертекста»). Работа по созданию (разметке) гипертекстовых документов называется вёрсткой , она делается веб-мастером либо отдельным специалистом по разметке — верстальщиком. После HTML-разметки получившийся документ сохраняется в файл , и такие HTML -файлы являются основным типом ресурсов Всемирной паутины. После того, как HTML-файл становится доступен веб-серверу, его начинают называть «веб-страницей». Набор веб-страниц образует веб-сайт .
Гипертекст страниц Всемирной паутины содержит гиперссылки. Гиперссылки помогают пользователям Всемирной паутины легко перемещаться между ресурсами (файлами) вне зависимости от того, находятся ресурсы на локальном компьютере или на удалённом сервере. Для определения местонахождения ресурсов во Всемирной паутине используются единообразные локаторы ресурсов
URL
(
англ.
Uniform Resource Locator). Например, полный
URL
главной страницы русского раздела Википедии выглядит так:
http://ru.wikipedia.org/wiki/Заглавная_страница
. Подобные URL-локаторы сочетают в себе технологию идентификации
URI
(
англ.
Uniform Resource Identifier «единообразный идентификатор ресурса») и систему
доменных имён
DNS
(
англ.
Domain Name System). Доменное имя (в данном случае
ru.wikipedia.org
) в составе URL обозначает компьютер (точнее — один из его
сетевых интерфейсов
), который исполняет код нужного веб-сервера. URL текущей страницы обычно можно увидеть в адресной строке браузера, хотя многие современные браузеры предпочитают по умолчанию показывать лишь доменное имя текущего сайта.
Для улучшения визуального восприятия веба стала широко использоваться технология CSS , которая позволяет задавать единые стили оформления для множества веб-страниц. Ещё одно нововведение, на которое стоит обратить внимание, — система обозначения ресурсов URN ( англ. Uniform Resource Name).
Популярная концепция развития Всемирной паутины — создание семантической паутины . Семантическая паутина — надстройка над существующей Всемирной паутиной, которая призвана сделать размещённую в сети информацию более понятной для компьютеров. Это также концепция сети, в которой каждый ресурс на человеческом языке был бы снабжён описанием, понятным компьютеру. Семантическая паутина открывает доступ к чётко структурированной информации для любых приложений, независимо от платформы и независимо от языков программирования . Программы смогут сами находить нужные ресурсы, обрабатывать информацию, классифицировать данные, выявлять логические связи, делать выводы и даже принимать решения на основе этих выводов. При широком распространении и грамотном внедрении семантическая паутина может вызвать революцию в Интернете. Для создания понятного компьютеру описания ресурса, в семантической паутине используется формат RDF ( англ. Resource Description Framework), который основан на синтаксисе XML и использует идентификаторы URI для обозначения ресурсов. Новинки в этой области: RDFS ( англ. RDF Schema) и SPARQL ( англ. Protocol And RDF Query Language) (произносится как «спа́ркл»), новый язык запросов для быстрого доступа к данным RDF.
Изобретателями всемирной паутины считаются Тим Бернерс-Ли и, в меньшей степени, Роберт Кайо . Тим Бернерс-Ли является автором технологий HTTP , URI / URL и HTML . В 1980 году он работал в Европейском совете по ядерным исследованиям ( фр. conseil européen pour la recherche nucléaire , CERN ) консультантом по программному обеспечению. Именно там, в Женеве ( Швейцария ), он для собственных нужд написал программу « » ( англ. Enquire , можно вольно перевести как «Дознаватель»), которая использовала случайные ассоциации для хранения данных и заложила концептуальную основу для Всемирной паутины.
В 1989 году, работая в CERN над внутренней сетью организации, Тим Бернерс-Ли предложил глобальный гипертекстовый проект, теперь известный как «Всемирная паутина». Проект подразумевал публикацию гипертекстовых документов, связанных между собой гиперссылками , что облегчило бы поиск и консолидацию информации для учёных CERN. Для осуществления проекта Тимом Бернерсом-Ли (совместно с его помощниками) были изобретены идентификаторы URI , протокол HTTP и язык HTML . Это технологии, без которых уже нельзя себе представить современный Интернет . В период с 1991 по 1993 год Бернерс-Ли усовершенствовал технические спецификации этих стандартов и опубликовал их. Но, всё же, официально годом рождения Всемирной паутины нужно считать 1989 год .
В рамках проекта Бернерс-Ли написал первый в мире веб-сервер , называвшийся « httpd », и первый в мире гипертекстовый веб-браузер , называвшийся «WorldWideWeb». Этот браузер был одновременно и WYSIWYG -редактором (сокр. от англ. what you see is what you get — что видишь, то и получишь), его разработка была начата в октябре 1990 года , а закончена в декабре того же года. Программа работала в среде NeXTStep и начала распространяться по Интернету летом 1991 года .
Майк Сендал (Mike Sendall) покупает в это время компьютер «NeXT cube» для того, чтобы понять, в чём состоят особенности его архитектуры, и отдаёт его затем Тиму [Бернерс-Ли]. Благодаря совершенству программной системы «NeXT cube» Тим написал прототип, иллюстрирующий основные положения проекта, за несколько месяцев. Это был впечатляющий результат: прототип предлагал пользователям, кроме прочего, такие развитые возможности, как WYSIWYG browsing/authoring!… В течение одной из сессий совместных обсуждений проекта в кафетерии ЦЕРНа мы с Тимом попытались подобрать «цепляющее» название (catching name) для создаваемой системы. Единственное, на чём я настаивал, это чтобы название не было в очередной раз извлечено всё из той же греческой мифологии. Тим предложил «world wide web». Всё в этом названии мне сразу очень понравилось, только трудно произносится по-французски.
— Robert Cailliau, 2 ноября 1995
Первый в мире веб-сайт был размещён Бернерсом-Ли
6 августа
1991 года
на первом
веб-сервере
, доступном по адресу
http://info.cern.ch/
, (). Ресурс определял понятие «
Всемирной паутины
», содержал инструкции по установке веб-сервера, использования браузера и т. п. Этот сайт также являлся первым в мире
интернет-каталогом
, потому что позже Тим Бернерс-Ли разместил и поддерживал там список ссылок на другие сайты.
На первой фотографии, появившейся во Всемирной паутине, была изображена пародийная филк -группа Les Horribles Cernettes . Тим Бернерс-Ли попросил у лидера группы отсканированные фотографии после музыкального фестиваля «CERN hardronic festival».
И всё же теоретические основы веба были заложены гораздо раньше Бернерса-Ли. Ещё в 1945 году Ванна́вер Буш разработал концепцию Memex — вспомогательных механических средств «расширения человеческой памяти ». Memex — устройство, в котором человек хранит все свои книги и записи (а в идеале и все свои знания, поддающиеся формальному описанию) и которое выдаёт нужную информацию с достаточной скоростью и гибкостью. Оно является расширением и дополнением памяти человека. Бушем было также предсказано всеобъемлющее индексирование текстов и мультимедийных ресурсов с возможностью быстрого поиска необходимой информации. Следующим значительным шагом на пути ко Всемирной паутине было создание гипертекста (термин введён Тедом Нельсоном в 1965 году ).
С 1994 года основную работу по развитию Всемирной паутины взял на себя консорциум Всемирной паутины ( англ. world wide web consortium , в сокращённой записи W3C), основанный и до сих пор возглавляемый Тимом Бернерсом-Ли. Данный консорциум — организация, разрабатывающая и внедряющая технологические стандарты для Интернета и Всемирной паутины. Миссия W3C: «Полностью раскрыть потенциал Всемирной паутины путём создания протоколов и принципов, гарантирующих долгосрочное развитие Сети». Две другие важнейшие задачи консорциума — обеспечить полную «интернационализа́цию Сети́» и сделать Сеть доступной для людей с ограниченными возможностями.
W3C разрабатывает для Интернета единые принципы и стандарты (называемые «рекомендациями», англ. W3C recommendations), которые затем внедряются производителями программ и оборудования. Таким образом достигается совместимость между программными продуктами и аппаратурой различных компаний, что делает Всемирную сеть более совершенной, универсальной и удобной. Все рекомендации консорциума Всемирной паутины открыты, то есть не защищены патентами и могут внедряться любым человеком без всяких финансовых отчислений консорциуму.
В настоящее время [ когда? ] наметились два направления в развитии Всемирной паутины: семантическая паутина и социальная паутина .
В рамках второго направления наработки, являющиеся частью семантической паутины, активно используются в качестве инструментов ( RSS и другие форматы веб-каналы , OPML , микроформаты XHTML ). Частично семантизированные участки дерева категорий «Википедии» помогают пользователям осознанно перемещаться в информационном пространстве, однако, очень мягкие требования к подкатегориям не дают основания надеяться на расширение таких участков. В связи с этим интерес могут представлять попытки составления атласов Знания.
Существует также популярное понятие Web 2.0 , обобщающее сразу несколько направлений развития Всемирной паутины.
Также есть проект интеграции Всемирной паутины на основе блокчейна Web3 , которая включает в себя такие концепции, как децентрализация и экономика на основе токенов . Некоторые специалисты и журналисты противопоставляют её Веб 2.0 , где, по их мнению, данные и контент централизованы в небольшой группе компаний, иногда называемых GAFAM ( Google , Amazon , Facebook , Apple , Microsoft ) . Термин был придуман в 2014 году соучредителем Ethereum Гэвином Вудом , а в 2021 году идеей заинтересовались криптовалютные энтузиасты, крупные технологические компании и венчурные фирмы .
Представленная в сети информация может быть доступна:
К способам активного отображения информации во Всемирной паутине относятся:
Это деление весьма условно. Так, скажем, блог или гостевую книгу можно рассматривать как частный случай форума, который, в свою очередь, является частным случаем системы управления контентом. Обычно разница проявляется в назначении, подходе и позиционировании того или иного продукта.
Отчасти информация с сайтов может также быть доступна через речь. В Индии уже началось тестирование системы, делающей текстовое содержимое страниц доступным даже для людей, не умеющих читать и писать.
Для киберпреступников Всемирная паутина стала ключевым способом распространения вредоносного программного обеспечения . Кроме того, под понятие сетевой преступности подпадают кража личных данных , мошенничество , шпионаж и незаконный сбор сведений о тех или иных субъектах или объектах . Веб- уязвимости , по некоторым данным, в настоящее время [ когда? ] превосходят по количеству любые традиционные проявления проблем компьютерной безопасности ; по оценкам Google , примерно одна из десяти страниц во Всемирной паутине может содержать вредоносный код . По данным компании Sophos , британского производителя антивирусных решений , большинство кибератак в веб-пространстве совершается со стороны легитимных ресурсов , размещённых по преимуществу в США , Китае и России . Наиболее распространённым видом подобных нападений, по сведениям от той же компании, является SQL-инъекция — злонамеренный ввод прямых запросов к базе данных в текстовые поля на страницах ресурса, что при недостаточном уровне защищённости может привести к раскрытию содержимого БД . Другой распространённой угрозой, использующей возможности HTML и уникальных идентификаторов ресурсов , для сайтов Всемирной паутины является межсайтовое выполнение сценариев (XSS), которое стало возможным с введением технологии JavaScript и набрало обороты в связи с развитием Web 2.0 и Ajax — новые стандарты веб-дизайна поощряли использование интерактивных сценариев . По оценкам 2008 года, до 70 % всех веб-сайтов в мире были уязвимы для XSS-атак против их пользователей .
Предлагаемые решения соответствующих проблем существенно варьируются вплоть до полного противоречия друг другу. Крупные поставщики защитных решений вроде McAfee , Avira , Avast и другие разрабатывают продукты для оценки информационных систем на предмет их соответствия определённым требованиям, другие игроки рынка (например,) рекомендуют проводить активное исследование программного кода и вообще всего содержимого в режиме реального времени, вне зависимости от источника данных . Есть также мнения, согласно которым предприятия должны воспринимать безопасность как удачную возможность для развития бизнеса , а не как источник расходов; для этого на смену сотням компаний, обеспечивающих защиту информации сегодня, должна прийти немногочисленная группа организаций, которая приводила бы в исполнение инфраструктурную политику постоянного и повсеместного управления цифровыми правами .
Каждый раз, когда пользовательский компьютер запрашивает у сервера веб-страницу, сервер определяет и, как правило, протоколирует IP-адрес , с которого поступил запрос. Аналогичным образом большинство обозревателей Интернета записывают сведения о посещённых страницах, которые затем можно просмотреть в журнале браузера, а также кэшируют загруженное содержимое для возможного повторного использования. Если при взаимодействии с сервером не используется зашифрованное HTTPS -соединение, запросы и ответы на них передаются через Интернет открытым текстом и могут быть считаны, записаны и просмотрены на промежуточных узлах сети .
Когда веб-страница запрашивает, а пользователь предоставляет определённый объём личных сведений , таких, к примеру, как имя и фамилия либо реальный или электронный адрес, поток данных может быть деанонимизирован и ассоциирован с конкретным человеком. Если веб-сайт использует файлы cookie , поддерживает аутентификацию пользователя или другие технологии отслеживания активности посетителей, то между предыдущими и последующими визитами также может быть установлена взаимосвязь. Таким образом, работающая во Всемирной паутине организация имеет возможность создавать и пополнять профиль конкретного клиента, пользующегося её сайтом (или сайтами). Такой профиль может включать, к примеру, информацию о предпочитаемом отдыхе и развлечениях, потребительских интересах, роде занятий и других демографических показателях . Такие профили представляют существенный интерес для маркетологов , сотрудников рекламных агентств и других специалистов подобного рода. В зависимости от условий обслуживания конкретных сервисов и местных законов такие профили могут продаваться или передаваться третьим сторонам без ведома пользователя.
Раскрытию сведений способствуют также социальные сети , предлагающие участникам самостоятельно изложить определённый объём личных данных о себе. Неосторожное обращение с возможностями таких ресурсов может приводить к попаданию в открытый доступ сведений, которые пользователь предпочёл бы скрыть; помимо прочего, такая информация может становиться предметом внимания хулиганов или, более того, киберпреступников. Современные социальные сети предоставляют своим участникам довольно широкий спектр настроек конфиденциальности профиля, однако эти настройки могут быть излишне сложны — в особенности для неопытных пользователей .
В период с 2005 по 2010 год количество веб-пользователей удвоилось и достигло отметки двух миллиардов . Согласно ранним исследованиям 1998 и 1999 годов , большинство существующих веб-сайтов не индексировалось корректно поисковыми системами, а сама веб-сеть оказалась крупнее, чем ожидалось . По данным на 2001 год было создано уже более 550 миллионов веб-документов, большинство из которых, однако, находилось в пределах невидимой сети . По данным на 2002 год было создано более 2 миллиардов веб-страниц , 56,4 % всего интернет-содержимого было на английском языке , после него шёл немецкий (7,7 %), французский (5,6 %) и японский (4,9 %). Согласно исследованиям, проводимым в конце января 2005 года , на 75 разных языках было определено более 11,5 миллиарда веб-страниц, которые были индексированы в открытой сети . А по данным на март 2009 года , количество страниц увеличилось до 25,21 миллиарда . 25 июля 2008 года инженеры программного обеспечения Google Джессе Альперт и Ниссан Хайай объявили, что поисковик Google засёк более миллиарда уникальных URL -ссылок .