Interested Article - Случайное индексирование

Случайное индексирование — это метод понижения размерности и один из подходов дистрибутивной семантики , основанный на убеждении, что варианты векторной модели (Vector Space Model) с высокой размерностью малоприменимы на практике и что модели не должны наращивать размерность при появлении не виденных ранее объектов (термов, документов и т. д.) Предполагается возможность проецирования модели с большими размерностями в пространство с меньшими — без ущерба для L2-метрик, если правильно подобрать итоговые измерения, что и представляет собой основной подход к случайным проекциям как методу понижения размерности, сформулированный как лемма Джонсона — Линденштрауса .

LSH устроен аналогично. Случайное индексирование как представление объектов естественного языка впервые предлагается в работе о и может быть описано как инкрементальное построение случайных проекций.

Можно также показать, что случайное индексирование — это вариант случайных проекций для построения евклидовых пространств.

Источник —

Same as Случайное индексирование