Mitsui Mining & Smelting
- 1 year ago
- 0
- 0
Web Mining — это использование методов интеллектуального анализа данных для автоматического обнаружения веб-документов и сервисов, извлечения информации из веб-ресурсов и выявления общих закономерностей в Интернете .
В Web Mining можно выделить следующие этапы:
Это общие шаги, которые необходимо пройти для анализа данных сети Интернет. Конкретные процедуры каждого этапа зависят от поставленной задачи. В связи с этим выделяют различные категории Web Mining:
Web Content Mining (Извлечение веб-контента) — процесс извлечения знаний из контента документов или их описания, доступных в Интернете .
Поиск знаний в сети Интернет является непростой и трудоёмкой задачей. Именно это направление Web Mining решает её. Оно основано на сочетании возможностей информационного поиска, машинного обучения и интеллектуального анализа данных.Web Structure Mining (Извлечение веб-структур) — процесс обнаружения структурной информации в Интернете . веб-страницами , основываясь на связях между ними. Построенные модели могут быть использованы для категоризации и поиска схожих веб-ресурсов, а также для распознавания авторских сайтов.
Данное направление рассматривает взаимосвязи междуWeb Usage Mining (Анализ использования веб-ресурсов) — это автоматическое обнаружение шаблонов в маршруте передвижения пользователя и связанных с ним данными, собранными или приобретёнными в результате взаимодействия с одним или несколькими веб-сайтами . Это направление основано на извлечении данных из логов веб-серверов. Целью анализа является выявление предпочтений посетителей при использовании тех или иных ресурсов сети Интернет.
Некоторые утверждают, что информационный поиск в Интернете — это частный случай Web Mining, другие ассоциируют Web Mining с интеллектуальным информационным поиском . На самом деле информационный поиск — это автоматический поиск всех необходимых документов, однако, в то же время не исключено получение некоторых нерелевантных документов . Основные задачи информационного поиска заключаются в поиске полезных документов, полнотекстовом индексировании, и в настоящее время исследования в области информационного поиска включают в себя моделирование, классификацию и категоризацию документов, пользовательских интерфейсов , визуализацию данных, фильтрацию, и т. д..Задача, которую, как считается, выполняет частный случай Web Mining — это классификация или категоризация веб-документов, которые могут быть использованы для индексации. В этой связи, Web Mining является частью процесса информационного поиска. Тем не менее, следует отметить, что не все задачи индексации используют методы интеллектуального анализа данных .
Целью информационного извлечения является превращение коллекции документов, обычно с помощью информационно-поисковых систем , в легко усвояемую и проанализированную информацию. Процесс извлечения информации направлен на вынимание релевантных фактов из документов, в то время как процесс информационного поиска направлен на селекцию релевантных документов. Первый заинтересован в структуре или представлении документа, то есть работает на уровне тонкой детализации, а второй рассматривает текст документа как коллекцию неупорядоченных слов. Тем не менее, различия между двумя процессами становятся несущественными, если цель информационного поиска — это извлечение информации .
Благодаря динамике и разнообразию веб-содержимого, создание ручного режима систем информационного извлечения не представляется возможным. В связи с этим, большинство систем по извлечению данных сосредотачивают внимание на конкретные веб-сайты. Другие используют обучающие машины или методы интеллектуального анализа данных и способны извлекать веб-документы в автоматическом или полуавтоматическом режиме. С этой точки зрения, Web Mining является частью процесса извлечения информации из Интернета .
Web Mining работает не по тому же принципу, что и применяющиеся в Интернете методы машинного обучения . С одной стороны, существуют некоторые приложения машинного обучения, не являющиеся частным случаем Web Mining. Примером этого является метод, эффективно использующий веб-паука для конкретной темы, или метод, акцентирующийся на планировании лучшего пути, который будет пройден следующим. С другой стороны, помимо методов машинного обучения, существуют и другие методы, которые применимы к Web Mining. К примеру — некоторые запатентованные алгоритмы , которые используются для добычи хабов и авторитетных страниц, DataGuides и алгоритмы обнаружения веб-схем. Тем не менее, между двумя областями исследований существует тесная связь, и методы машинного обучения могут быть применены к процессам Web Mining. Например, недавние исследования показали, что применение методов машинного обучения может улучшить процесс классификации текстов, по сравнению с результатами работы традиционных методов информационного поиска .
Web Content Mining описывает автоматический поиск информационных ресурсов в Интернете и включает в себя добычу содержимого из веб-данных. По сути, Web Content Mining является аналогом метода интеллектуального анализа данных для реляционных баз данных, так как существует возможность найти похожие типы знаний из неструктурированных данных , находящихся в веб-документах. Веб-документ может содержать несколько типов данных, такие как текст, изображения, аудио, видео, метаданные и гиперссылки . Некоторые из них частично структурированные, такие как HTML -документы, некоторые более структурированные, такие как данные в таблицах или базах данных , но большинство информации хранится в неструктурированных текстовых данных .
Существуют различные методы поиска информации в Интернете. Наиболее распространённым подходом является поиск на основе ключевых слов. Традиционные поисковые системы имеют сканеры для поиска и сбора полезной информации в Интернете, методы индексирования для хранения информации и обработки запросов, чтобы предложить пользователям более точную информацию. Web Content Mining выходит за рамки традиционной технологии IR ( англ. Information Retrieval ).
Существует два подхода к Web Content Mining: агентный и ориентированный на базу данных. В первом случае, добычу данных осуществляют программные агенты, во втором случае данные рассматриваются как принадлежащие к базе .
Подход, основанный на агентах, включает такие системы :
Примеры систем интеллектуальных агентов поиска:
Подход, основанный на базах данных, включает системы :
Примеры систем web-запросов:
Web Structure Mining — это процесс выявления структурной информации в Интернете, который может быть разделён на два вида, основанных на типе структуры используемой информации :
Гиперссылка является структурной единицей, которая соединяет локацию в веб-странице с другой, или в пределах одной веб-страницы или на другой веб-странице. Гиперссылка, которая подключается к другой части той же страницы называется внутри-документной гиперссылкой, а гиперссылка, которая соединяет две разных страницы называется меж-документной гиперссылкой.
Содержание веб-страницы может быть представлено в древовидном формате, основанном на различных HTML и XML тегах. Задача состоит в том, чтобы автоматически извлечь DOM-структуру(англ. document object model) из документов.
Web Structure Mining пытается обнаружить модель, лежащую в основе ссылочной структуры в Интернете. Модель основана на топологии гиперссылки с или без описания ссылки. Эта модель может быть использована для классификации Веб-страницы и полезна для получения информации, такие как сходство и отношения между веб-сайтами . Ссылочная структура содержит важную информацию, и может помочь в фильтрации и ранжировании веб-страниц. В частности, ссылка со страницы А на страницу В может считаться рекомендацией страницы B автором А.
Были предложены некоторые новые алгоритмы, использующие ссылочную структуру не только для поиска по ключевым словам, но и других задач, таких как автоматическое создание Yahoo-подобных иерархий или идентификаций сообществ в Интернете. Качественное выполнение этих алгоритмов, как правило, лучше, чем исполнение IR-алгоритмов, поскольку они используют больше информации, чем просто содержимое страниц.
Web Usage Mining — это процесс извлечения полезной информации из пользовательских журналов доступа, журналов прокси-сервера, браузерных журналов, пользовательских сессионных данных. Говоря простым языком, Web Usage Mining — это процесс выяснения того, что пользователи ищут в Интернете. Некоторые пользователи могут быть заинтересованы только в текстовых данных, в то время как другие могут больше уделять внимания мультимедийным данным .
Анализируется следующая информация:
Анализируется также, какие группы пользователей можно выделить среди общего их числа на основе истории просмотра Web-узла.
Web Usage Mining включает следующие составляющие:
На первом этапе происходит сбор данных и предварительная обработка данных. Предварительная стадия обработки включает в себя очистку clickstream-данных ( англ. Clickstream — маршрут перемещения пользователя по веб-узлу) и разбиение данных на множество пользовательских транзакций с их визитами на веб-сайт. На стадии обнаружения шаблона, статистические алгоритмы и алгоритмы баз данных выполняются на журналы транзакций, чтобы найти скрытые закономерности и поведение пользователей. На заключительном этапе анализа шаблонов, обнаруженные образцы из предыдущего этапа последовательно обрабатываются и фильтруют произведённые модели, которые впоследствии могут использоваться как входные данные в различные инструменты визуализации и инструменты генерации отчётов .
Статистика фиксирует идентификационные данные веб-пользователей вместе с их поведением на сайте. В зависимости от вида использования данных, результатом работы Web Usage Mining будут являться:
Веб-сервером собираются журналы пользователя и обычно включают в себя IP-адрес, ссылку на страницу и время доступа.
Коммерческие серверы приложений, такие как WebLogic , StoryServer, имеют значительные возможности, позволяющие обосноваться на их вершине приложениям для электронной коммерции. Ключевой особенностью является возможность отслеживать различные виды деловых мероприятий и регистрировать их в журналах сервера приложений.
В приложении могут быть определены новые виды событий, регистрация которых, может включать историю создания этих событий. Следует отметить, что многие конечные приложения требуют сочетания одного или нескольких методов, применяемые в категориях, указанных выше.
Web Usage Mining имеет ряд преимуществ, что делает эту технологию привлекательной для корпораций, в том числе государственных учреждений :