Eurovision Song Contest’s Greatest Hits
- 1 year ago
- 0
- 0
Алгоритм HITS ( англ. Hyperlink Induced Topic Search ), предложенный в 1999 году Джоном Клейнбергом , позволяет находить Интернет-страницы, соответствующие запросу пользователя, на основе информации, заложенной в гиперссылки .
Метрика HITS часто используется для ответа на широкую тему запросов и нахождения сообществ документов( англ. Tightly-Knit Community ), в Интернете . Идея алгоритма основана на предположении, что гиперссылки кодируют значительное количество скрытых авторитетных страниц .
Авторитетный документ (авторитетная страница, автор) — это документ, соответствующий запросу пользователя, имеющий больший удельный вес среди документов данной тематики, то есть большее число документов ссылаются на данный документ .
Хаб-документ (хаб-страница, посредник) — это документ, содержащий много ссылок на авторитетные документы.
Страница, на которую ссылаются многие другие точки должна быть хорошим «автором». В свою очередь страница, которая указывает на многие другие, должна быть хорошим «посредником». Основываясь на этом, в алгоритме HITS для каждой веб-страницы рассчитываются две оценки: оценка авторитетности и посредническая оценка. То есть для каждой страницы рекурсивно вычисляется её значимость как «автора» и «посредника» .
Первым шагом в алгоритме HITS, является получение наиболее релевантных страниц в поисковом запросе . Это множество называется корневым набором и может быть получено путём принятия самых популярных страниц n, возвращаемых текстовым алгоритмом поиска. Базовый набор формируется путём увеличения корневого набора со всеми веб-страницами , которые с ним связаны и с некоторыми страницами, ссылающимися на него. Веб-страницы в базовом наборе и все гиперссылки между этими страниами, образуют сосредоточенный подграф. HITS вычисления выполняются только на этом подграфе.
Оценки авторитетного документа и посредника определены в терминах друг друга во взаимной рекурсии . Оценка авторитетности страницы вычисляется как сумма значений оценок посреднических страниц, которые указывают на эту страницу. Значение оценки посредника вычисляется как сумма оценок авторитетных страниц, на которые он указывает.
Алгоритм выполняет ряд итераций , каждая из которых состоит из двух основных этапов:
Оценка авторитетности и посредническая оценка для вершины рассчитывается по следующему алгоритму:
Чтобы начать ранжирование, , и . Рассмотрим два типа обновлений: правило обновления авторитетности и хаб-обновление. Для того чтобы вычислить оценки авторитетности/посредника применяются повторяющиеся итерации правил обновления авторитетности и хаб-обновления. K-шаг применения алгоритма подразумевает под собой применение k-раз первого правила обновления авторитетности и затем правило хаб-обновления.
, мы получаем = где n — общее количество страниц, связанных с p и i — страница, связанная с p. Таким образом, оценка авторитетности страницы вычисляется как сумма значений оценок посреднических страниц, которые указывают на эту страницу.
, мы получаем = где n — общее количество страниц, на которые указывает p и i — страница, на которую указывает p. Таким образом, посредническая оценка страницы вычисляется как сумма значений оценок авторитетности страниц, на которых она ссылается.
В зависимости от этих значений рассчитывается важность веб-страниц для конкретного запроса и затем отображается пользователю. Рейтинг модуля HITS вычисляет ранг веб-страницы в автономном режиме после того, как они были загружены и сохранены в локальной базе данных.
Окончательные оценки вершин определяются после бесконечного повторения алгоритма. Прямое и последовательное применение правил хаб-обновления и обновления авторитетности, приводит к расходящимся значениям, которые необходимо нормализовать матрицой после каждой итерации. Таким образом, значения, полученные в результате этого процесса в конечном итоге сходятся.
Алгоритм HITS имеет несколько важных отличий от алгоритма PageRank .
Несмотря на различия HITS и PageRank, в этих алгоритмах общее то, что авторитетность (вес) узла зависит от веса других узлов, а уровень «посредника» зависит от того, насколько авторитетны узлы, на которые он ссылается.
Расчет авторитетности отдельных документов сегодня широко используется в таких приложениях, как определение порядка сканирования документов в сети роботом ИПС , ранжирование результатов поиска, формирование тематических обзоров и т. п.
В настоящее время приобрели широкое распространение технологии искусственного повышения рангов отдельных веб-документов или их групп веб-сайтов путём установления гиперссылок, не имеющих отношения к их содержанию. Эти технологии, являющиеся неблагонадёжной разновидностью методов поисковой оптимизации SEO ( англ. Search Engine Optimization ), под названием «чёрное» SEO, основываются на приспособлении к существующим алгоритмам ранжирования веб-документов наиболее популярными ( поисковыми системами ).
В свою очередь, такие технологии приводят к необходимости постоянного совершенствования алгоритмов ранжирования в поисковых системах, ориентации на содержательную составляющую веб-документов при определении их рангов.
При оценке алгоритма HITS было проведено много исследований и показано, что в то время как алгоритм хорошо работает для большинства запросов, он не работает для некоторых других. Существует несколько причин :
Нецелесообразность четкого различия между «посредниками» и «авторами», поскольку многие посреднические страницы также являются и авторскими.
Доминирующее расположение некоторых тематически тесно связанных документов в результате работы алгоритма HITS. В некоторых случаях, эти документы могут быть нерелевантны поставленному запросу . Было зафиксировано, что в одном случае, когда искомым элементом запроса был «Ягуар», алгоритм HITS сходился к футбольной команде под названием Jaguars.
Для решения этой проблемы был предложен алгоритм PHITS , как некоторое расширение стандартного алгоритма HITS. В рамках этого алгоритма предполагается: — множество цитирующих документов, — множество ссылок, — множество классов (факторов). Предполагается также, что событие происходит с вероятностью . Условные вероятности и используются для описания зависимостей между наличием ссылки , латентным фактором и документом .
Оценивается функция правдоподобия :
Цель алгоритма PHITS состоит в том, чтобы подобрать , , для максимизации .
После этого:
– ранги "авторов";
– ранги "посредников".
Для вычисления рангов необходимо задать количество факторов в множестве , и тогда будет характеризовать качество страницы как «автора» в контексте тематики. К недостаткам метода надо отнести то, что итеративный процесс чаще всего останавливается не на абсолютном, а на локальном максимуме функции правдоподобия . Вместе с тем в ситуациях, когда в множестве найденных веб-страниц нет явного доминирования тематики запроса, PHITS превосходит алгоритм HITS.
Некоторые из ссылок генерируются компьютером, но алгоритм HITS по-прежнему дает им равные значения.
Некоторые запросы могут возвращать на высокое место в рейтинге нерелевантные документы, что приводит к ошибочным результатам работы алгоритма HITS.