Векторная графика
- 1 year ago
- 0
- 0
Ве́кторная моде́ль ( англ. vector space model ) — в информационном поиске представление коллекции документов векторами из одного общего для всей коллекции векторного пространства .
Векторная модель является основой для решения многих задач информационного поиска, как то: поиск документа по запросу , классификация документов , кластеризация документов .
Документ в векторной модели рассматривается как неупорядоченное множество термов. Термами в информационном поиске называют слова, из которых состоит текст, а также такие элементы текста, как, например, 2010 , II-5 или Тянь-Шань .
Различными способами можно определить вес терма в документе — «важность» слова для идентификации данного текста. Например, можно просто подсчитать количество употреблений терма в документе, так называемую частоту терма, — чем чаще слово встречается в документе, тем больший у него будет вес. Если терм не встречается в документе, то его вес в этом документе равен нулю.
Все термы, которые встречаются в документах обрабатываемой коллекции, можно упорядочить. Если теперь для некоторого документа выписать по порядку веса́ всех термов, включая те, которых нет в этом документе, получится вектор, который и будет представлением данного документа в векторном пространстве. Размерность этого вектора, как и размерность пространства, равна количеству различных термов во всей коллекции, и является одинаковой для всех документов.
Более формально
где d j — векторное представление j -го документа, w ij — вес i -го терма в j -м документе, n — общее количество различных термов во всех документах коллекции.
Располагая таким представлением для всех документов, можно, например, находить расстояние между точками пространства и тем самым решать задачу подобия документов — чем ближе расположены точки, тем больше похожи соответствующие документы. В случае поиска документа по запросу, запрос тоже представляется как вектор того же пространства — и можно вычислять соответствие документов запросу.
Для полного определения векторной модели необходимо указать, каким именно образом будет отыскиваться вес терма в документе. Существует несколько стандартных способов задания функции взвешивания:
Косинусное сходство — это мера сходства между двумя векторами предгильбертового пространства , которая используется для измерения косинуса угла между ними.
Если даны два вектора признаков, A и B , то косинусное сходство, cos(θ) , может быть представлено используя скалярное произведение и норму :
В случае информационного поиска , косинусное сходство двух документов изменяется в диапазоне от 0 до 1, поскольку частота терма (веса tf-idf ) не может быть отрицательной. Угол между двумя векторами частоты терма не может быть больше, чем 90°.
Одна из причин популярности косинуснуго сходства состоит в том, что оно эффективно в качестве оценочной меры, особенно для разреженных векторов, так как необходимо учитывать только ненулевые измерения.
«Мягкая» косинусная мера — это «мягкая» мера сходства между двумя векторами, то есть мера, которая учитывает сходства между парами признаков. Традиционное косинусное сходство рассматривает признаки векторной модели как независимые или полностью обособленные, тогда как «мягкая» косинусная мера учитывает сходства признаков в векторной модели. Это позволяет обобщить идею косинусной меры, а также идею сходства объектов в векторном пространстве («мягкое» сходство).
Например, в области обработки естественного языка сходство между объектами весьма интуитивно. Такие признаки как слова, N-граммы или синтаксические N-граммы могут быть довольно схожи, хотя формально они считаются различными признаками в векторной модели. Например, слова «играть» и «игра» различны и, таким образом, отображаются в различных измерениях в векторной модели, хотя, очевидно, что они связаны семантически. В случае N-грамм или синтаксических N-грамм может быть применено расстояние Левенштейна (кроме того, расстояние Левенштейна может быть также применено и к словам).
Для расчета «мягкой» косинусной меры вводится матрица s сходства между признаками. Она может рассчитываться, используя расстояние Левенштейна или другие меры сходства, например, различные меры сходства в Wordnet . Затем производится умножение с применением данной матрицы.
Если даны два N -мерных вектора a и b, то мягкая косинусная мера рассчитывается следующим образом:
где s ij = сходство(признак i , признак j ) .
При отсутствии сходства между признаками ( s ii = 1 , s ij = 0 для i ≠ j )), данное уравнение эквивалентно общепринятой формуле косинусного сходства.
Степень сложности этой меры является квадратичной, что делает её вполне применимой к задачам реального мира. Степень сложности может быть также трансформирована в линейную.