Interested Article - Web mining

Общая взаимосвязь между категориями Web Mining и задачами интеллектуального анализа данных

Web Mining — это использование методов интеллектуального анализа данных для автоматического обнаружения веб-документов и сервисов, извлечения информации из веб-ресурсов и выявления общих закономерностей в Интернете .

В Web Mining можно выделить следующие этапы:

входной этап ( англ. input stage ) — получение «сырых» данных из источников ( логи серверов , тексты электронных документов);
этап предобработки ( англ. preprocessing stage ) — данные представляются в форме, необходимой для успешного построения той или иной модели;
этап моделирования ( англ. pattern discovery stage );
этап анализа модели ( англ. pattern analysis stage ) — интерпретация полученных результатов.

Это общие шаги, которые необходимо пройти для анализа данных сети Интернет. Конкретные процедуры каждого этапа зависят от поставленной задачи. В связи с этим выделяют различные категории Web Mining:

Web Content Mining;
Web Structure Mining;
Web Usage Mining.

Web Content Mining (Извлечение веб-контента) — процесс извлечения знаний из контента документов или их описания, доступных в Интернете . Поиск знаний в сети Интернет является непростой и трудоёмкой задачей. Именно это направление Web Mining решает её. Оно основано на сочетании возможностей информационного поиска, машинного обучения и интеллектуального анализа данных.

Web Structure Mining (Извлечение веб-структур) — процесс обнаружения структурной информации в Интернете . Данное направление рассматривает взаимосвязи между веб-страницами , основываясь на связях между ними. Построенные модели могут быть использованы для категоризации и поиска схожих веб-ресурсов, а также для распознавания авторских сайтов.

Web Usage Mining (Анализ использования веб-ресурсов) — это автоматическое обнаружение шаблонов в маршруте передвижения пользователя и связанных с ним данными, собранными или приобретёнными в результате взаимодействия с одним или несколькими веб-сайтами . Это направление основано на извлечении данных из логов веб-серверов. Целью анализа является выявление предпочтений посетителей при использовании тех или иных ресурсов сети Интернет.

Web Mining

Web Mining и информационный поиск

Некоторые утверждают, что информационный поиск в Интернете — это частный случай Web Mining, другие ассоциируют Web Mining с интеллектуальным информационным поиском . На самом деле информационный поиск — это автоматический поиск всех необходимых документов, однако, в то же время не исключено получение некоторых нерелевантных документов . Основные задачи информационного поиска заключаются в поиске полезных документов, полнотекстовом индексировании, и в настоящее время исследования в области информационного поиска включают в себя моделирование, классификацию и категоризацию документов, пользовательских интерфейсов , визуализацию данных, фильтрацию, и т. д..Задача, которую, как считается, выполняет частный случай Web Mining — это классификация или категоризация веб-документов, которые могут быть использованы для индексации. В этой связи, Web Mining является частью процесса информационного поиска. Тем не менее, следует отметить, что не все задачи индексации используют методы интеллектуального анализа данных .

Web Mining и извлечение информации

Целью информационного извлечения является превращение коллекции документов, обычно с помощью информационно-поисковых систем , в легко усвояемую и проанализированную информацию. Процесс извлечения информации направлен на вынимание релевантных фактов из документов, в то время как процесс информационного поиска направлен на селекцию релевантных документов. Первый заинтересован в структуре или представлении документа, то есть работает на уровне тонкой детализации, а второй рассматривает текст документа как коллекцию неупорядоченных слов. Тем не менее, различия между двумя процессами становятся несущественными, если цель информационного поиска — это извлечение информации .

Благодаря динамике и разнообразию веб-содержимого, создание ручного режима систем информационного извлечения не представляется возможным. В связи с этим, большинство систем по извлечению данных сосредотачивают внимание на конкретные веб-сайты. Другие используют обучающие машины или методы интеллектуального анализа данных и способны извлекать веб-документы в автоматическом или полуавтоматическом режиме. С этой точки зрения, Web Mining является частью процесса извлечения информации из Интернета .

Web Mining и машинное обучение

Web Mining работает не по тому же принципу, что и применяющиеся в Интернете методы машинного обучения . С одной стороны, существуют некоторые приложения машинного обучения, не являющиеся частным случаем Web Mining. Примером этого является метод, эффективно использующий веб-паука для конкретной темы, или метод, акцентирующийся на планировании лучшего пути, который будет пройден следующим. С другой стороны, помимо методов машинного обучения, существуют и другие методы, которые применимы к Web Mining. К примеру — некоторые запатентованные алгоритмы , которые используются для добычи хабов и авторитетных страниц, DataGuides и алгоритмы обнаружения веб-схем. Тем не менее, между двумя областями исследований существует тесная связь, и методы машинного обучения могут быть применены к процессам Web Mining. Например, недавние исследования показали, что применение методов машинного обучения может улучшить процесс классификации текстов, по сравнению с результатами работы традиционных методов информационного поиска .

Web Content Mining

Web Content Mining описывает автоматический поиск информационных ресурсов в Интернете и включает в себя добычу содержимого из веб-данных. По сути, Web Content Mining является аналогом метода интеллектуального анализа данных для реляционных баз данных, так как существует возможность найти похожие типы знаний из неструктурированных данных , находящихся в веб-документах. Веб-документ может содержать несколько типов данных, такие как текст, изображения, аудио, видео, метаданные и гиперссылки . Некоторые из них частично структурированные, такие как HTML -документы, некоторые более структурированные, такие как данные в таблицах или базах данных , но большинство информации хранится в неструктурированных текстовых данных .

Существуют различные методы поиска информации в Интернете. Наиболее распространённым подходом является поиск на основе ключевых слов. Традиционные поисковые системы имеют сканеры для поиска и сбора полезной информации в Интернете, методы индексирования для хранения информации и обработки запросов, чтобы предложить пользователям более точную информацию. Web Content Mining выходит за рамки традиционной технологии IR ( англ. Information Retrieval ).

Существует два подхода к Web Content Mining: агентный и ориентированный на базу данных. В первом случае, добычу данных осуществляют программные агенты, во втором случае данные рассматриваются как принадлежащие к базе .

Подход, основанный на агентах, включает такие системы :

интеллектуальные поисковые агенты (Intelligent Search Agents);
фильтрация информации / классификация;
персонифицированные агенты сети.

Примеры систем интеллектуальных агентов поиска:

Harvest (Brown и др., 1994),
FAQ-Finder (Hammond и др., 1995),
Information Manifold (Kirk и др., 1995),
OCCAM (Kwok and Weld, 1996), and ParaSite (Spertus, 1997),
ILA (Information Learning Agent) (Perkowitz and Etzioni, 1995),
ShopBot (Doorenbos и др., 1996).

Подход, основанный на базах данных, включает системы :

многоуровневые базы данных;
системы web-запросов (Web Query Systems);

Примеры систем web-запросов:

W3QL (Konopnicki и Shmueli, 1995),
WebLog (Lakshmanan и др., 1996),
Lorel (Quass и др., 1995),
UnQL (Buneman и др., 1995 and 1996),
TSIMMIS (Chawathe и др.., 1994).

Web Structure Mining

Web Structure Mining — это процесс выявления структурной информации в Интернете, который может быть разделён на два вида, основанных на типе структуры используемой информации :

Гиперссылки
Структура документа

Гиперссылки

Гиперссылка является структурной единицей, которая соединяет локацию в веб-странице с другой, или в пределах одной веб-страницы или на другой веб-странице. Гиперссылка, которая подключается к другой части той же страницы называется внутри-документной гиперссылкой, а гиперссылка, которая соединяет две разных страницы называется меж-документной гиперссылкой.

Структура документа

Содержание веб-страницы может быть представлено в древовидном формате, основанном на различных HTML и XML тегах. Задача состоит в том, чтобы автоматически извлечь DOM-структуру(англ. document object model) из документов.

Web Structure Mining пытается обнаружить модель, лежащую в основе ссылочной структуры в Интернете. Модель основана на топологии гиперссылки с или без описания ссылки. Эта модель может быть использована для классификации Веб-страницы и полезна для получения информации, такие как сходство и отношения между веб-сайтами . Ссылочная структура содержит важную информацию, и может помочь в фильтрации и ранжировании веб-страниц. В частности, ссылка со страницы А на страницу В может считаться рекомендацией страницы B автором А.

Были предложены некоторые новые алгоритмы, использующие ссылочную структуру не только для поиска по ключевым словам, но и других задач, таких как автоматическое создание Yahoo-подобных иерархий или идентификаций сообществ в Интернете. Качественное выполнение этих алгоритмов, как правило, лучше, чем исполнение IR-алгоритмов, поскольку они используют больше информации, чем просто содержимое страниц.

Web Usage Mining

Web Usage Mining — это процесс извлечения полезной информации из пользовательских журналов доступа, журналов прокси-сервера, браузерных журналов, пользовательских сессионных данных. Говоря простым языком, Web Usage Mining — это процесс выяснения того, что пользователи ищут в Интернете. Некоторые пользователи могут быть заинтересованы только в текстовых данных, в то время как другие могут больше уделять внимания мультимедийным данным .

Анализируется следующая информация:

какие страницы просматривал пользователь;
какова последовательность просмотра страниц.

Анализируется также, какие группы пользователей можно выделить среди общего их числа на основе истории просмотра Web-узла.

Web Usage Mining включает следующие составляющие:

предварительная обработка;
операционная идентификация;
инструменты обнаружения шаблонов;
инструменты анализа шаблонов.

На первом этапе происходит сбор данных и предварительная обработка данных. Предварительная стадия обработки включает в себя очистку clickstream-данных ( англ. Clickstream — маршрут перемещения пользователя по веб-узлу) и разбиение данных на множество пользовательских транзакций с их визитами на веб-сайт. На стадии обнаружения шаблона, статистические алгоритмы и алгоритмы баз данных выполняются на журналы транзакций, чтобы найти скрытые закономерности и поведение пользователей. На заключительном этапе анализа шаблонов, обнаруженные образцы из предыдущего этапа последовательно обрабатываются и фильтруют произведённые модели, которые впоследствии могут использоваться как входные данные в различные инструменты визуализации и инструменты генерации отчётов .

Статистика фиксирует идентификационные данные веб-пользователей вместе с их поведением на сайте. В зависимости от вида использования данных, результатом работы Web Usage Mining будут являться:

Данные веб-сервера;
Данные серверных приложений;
Данные прикладного уровня.

Данные веб-сервера

Веб-сервером собираются журналы пользователя и обычно включают в себя IP-адрес, ссылку на страницу и время доступа.

Данные серверных приложений

Коммерческие серверы приложений, такие как WebLogic , StoryServer, имеют значительные возможности, позволяющие обосноваться на их вершине приложениям для электронной коммерции. Ключевой особенностью является возможность отслеживать различные виды деловых мероприятий и регистрировать их в журналах сервера приложений.

Данные прикладного уровня

В приложении могут быть определены новые виды событий, регистрация которых, может включать историю создания этих событий. Следует отметить, что многие конечные приложения требуют сочетания одного или нескольких методов, применяемые в категориях, указанных выше.

Плюсы и минусы Web Usage Mining

Плюсы

Web Usage Mining имеет ряд преимуществ, что делает эту технологию привлекательной для корпораций, в том числе государственных учреждений :

Эта технология позволила электронной торговле создать персонализированный маркетинг, который в конечном итоге привёл к увеличению объёмов торговли.
Государственные учреждения используют эту технологию для классификации угроз и для борьбы с терроризмом.
Возможность прогнозирования может принести пользу обществу путём выявления преступной деятельности.
Компании могут установить более тесные взаимоотношениями с клиентами, предоставляя им именно то, что им нужно.
Компании могут лучше понять потребности клиента и быстрее реагировать на потребности клиентов.
Компании могут найти, привлечь и удержать клиентов, сэкономить на себестоимости продукции за счёт использования приобретённого понимания требований заказчика.
Компании повышают рентабельность за счёт целевого ценообразования на основе созданных профилей.

Минусы

Самый критикуемый этический вопрос, связанный с Web Usage Mining, является вопрос о вторжении в частную жизнь. Защита считается потерянной, когда полученная информация об отдельном пользователе используется или распространяется без их ведома и согласия. Полученные данные будут проанализированы и кластеризованы в форме профилей или будут анонимными до кластеризации без создания личных профилей. Таким образом, эти приложения де-индивидуализируют пользователя, судя о них только по их щелчками мыши .
Другой важной проблемой является то, что компании по сбору данных могут их использовать для совершенно разных целей, что существенно нарушает интересы пользователей.
Растущая тенденция использования персональных данных в качестве товара призывает владельцев веб-сайтов к торговле этими данными, расположенными на их сайтах.
Некоторые алгоритмы интеллектуального анализа могут использовать спорные атрибуты, такие как пол, раса, религия или сексуальная ориентация. Эти методы могут быть против анти-дискриминационного законодательства.

См. также

Надзорный капитализм

Примечания

, с. 290.
, с. 132.
↑ , с. 3.
, с. 527.
, с. 2.
, с. 2-3.
, с. 3.
, с. 5.
, с. 263.
↑ .
, с. 3.
↑ , с. 7.
.

Литература

Wang Y. (англ.) . — 2000. (недоступная ссылка)
Lingras P., Akerkar R. (англ.) . — Jones and Bartlett Publishers, 2008. — 326 p. — ISBN 978-0-7637-4137-2 .
Bing L. (англ.) . — Springer, 2011. — 642 p. — ISBN 978-3642194597 .
Wookie L. (англ.) . — 2007.
Kosala R., Blockeel H. (англ.) . — ACM SIGKDD, 2000. — P. 2-3 .

Cronin B. (англ.) . — ARIST, 2004. — 674 p. — ISBN 1573872091 .
Чубукова И. А. . — М. : Интернет-университет информационных технологий: БИНОМ: Лаборатория знаний, 2006. — 382 с. — ISBN 5-9556-0064-7 .
Sivaramakrishnan J., Balakrishnan V. . — Dubai: BITS – PILANI, 2009. — С. 132-139.
Sharma A. (англ.) . — Rochester Institute of Technology, 2008. 23 января 2013 года.
Srivastava J., Desikan P., Kumar V. (англ.) . — 2004.
Royakkers L, v.Wel L. (англ.) . — Kluwer Academic Publishers, 2004.