Interested Article - Лемма о малом искажении

Лемма о малом искажении (также известна как лемма Джонсона — Линденштрауса ) утверждает, что множество из точек многомерного пространства можно отобразить в пространство размерности гораздо меньше таким образом, что расстояния между точками останутся почти без изменений. При этом такое отображение можно найти среди ортогональных проекций .

Лемма позволяет сжимать данные, представленные точками многомерного пространства, и, что более важно, сократить размерность данных без существенной потери информации.

Лемма была доказана и .

Формулировка

Пусть . Тогда для любого множества из точек в и существует линейное отображение такое, что

для всех .

Более того случайная ортогональная проекция на -мерное подпространство удовлетворяет условию с положительной вероятностью.

О доказательствах

Одно из доказательств основано на свойстве концентрации меры .

Альтернативная формулировка

Родственной леммой является лемма Джонсона — Линденштрауса о распределении. Эта дистрибутивная лемма утверждает, что для любого 0 < ε , δ < 1/2 и положительного целого числа d существует распределение R k × d , из которого извлекается матрица A так, что для k = O ( ε −2 log(1/ δ )) и для любого вектора единичной длины x R d верно следующее утверждение

Соответствующие матрицы A получили название матриц Джонсона — Линденштрауса ( англ. JL matrices ). По сути, данная лемма характеризует точность аппроскимации матричной проекции многомерного распределения.

Связь дистрибутивной версии леммы с её исходным эквивалентом можно получить, если задать и для некоторой пары u , v в X .

Возможность получения проекций меньшей размерности является очень важным результатом указанных лемм, однако необходимо, чтобы такие проекции можно было получить за минимальное время. Фигурирующая в дистрибутивной лемме операция умножения матрицы A на вектор x занимает время O ( kd ). Поэтому был проведен ряд исследований по получению распределений, для которых матрично-векторное произведение может быть вычислено быстрее, чем за время O ( kd ).

В частности, Эйлоном и Бернаром Шазелем в 2006 году было введено так называемое быстрое преобразование Джонсона — Линденштрауса (БПДЛ) , которое позволяет вычислять матрично-векторное произведение за время для любой константы .

Особый случай представляют тензорные случайные проекции, для которых вектор единичной длины x имеет тензорную структуру и проецирующие JL-матрицы A могут быть выражены через торцевое произведение нескольких матриц с одинаковым количеством независимых строк.

Тензорные проекции многомерных пространств

Для представления тензорных проекций, используемых в БПДЛ в многомерном случае, в виде комбинации двух JL-матриц с одинаковым количеством строк, может быть использовано торцевое произведение ( англ. face-splitting product ), предложенное в 1996 году Слюсарем В.И. .

Рассмотрим две JL-матрицы проекций многомерного пространства: и . Их торцевое произведение имеет вид:

JL-матрицы, определённые таким образом, используют меньше случайных бит и могут быстро умножаться на векторы с тензорной структурой, благодаря следующему тождеству :

,

где - поэлементное произведение Адамара .

Переход от проецирующей матрицы A к торцевому произведению позволяет заменить исходное умножение на произведение Адамара, оперирующее матрицами меньшей размерности. В указанном контексте идея торцевого произведения была использована в 2010 для решения задачи дифференциальной приватности ( англ. differential privacy ). Кроме того, аналогичные вычисления были применены для эффективной реализации ядерного метода и во многих других алгоритмах линейной алгебры .

В 2020 году было показано, что для создания проекций малой размерности в торцевом произведении достаточно использовать любые матрицы со случайными независимыми строками, однако более сильные гарантии достижения малых искажений многомерных пространств могут быть достигнуты с помощью действительных гауссовых матриц Джонсона-Линденштрауса .

Если матрицы являются независимыми, содержащими элементы , или гауссовыми матрицами, то объединённая матрица соответствует лемме Джонсона-Линденштрауса о распределении, если число строк не меньше

.

Для больших дистрибутивная лемма Джонсона-Линденштрауса выполняется строго, при этом нижняя граница ошибки аппроксимации имеет экспоненциальную зависимость . Предлагаются альтернативные конструкции JL-матриц, чтобы обойти это ограничение .

Примечания

  1. ; (1984). "Extensions of Lipschitz mappings into a Hilbert space". In Beals, Richard; Beck, Anatole; Bellow, Alexandra; et al. (eds.). Conference in modern analysis and probability (New Haven, Conn., 1982) . Contemporary Mathematics. Vol. 26. Providence, RI: American Mathematical Society. pp. 189—206. doi : . ISBN 0-8218-5030-X . MR .
  2. ; (1984). "Extensions of Lipschitz mappings into a Hilbert space". In Beals, Richard; Beck, Anatole; Bellow, Alexandra; et al. (eds.). . Contemporary Mathematics. Vol. 26. Providence, RI: American Mathematical Society. pp. . doi : . ISBN 0-8218-5030-X . MR .
  3. Ailon, Nir; Chazelle, Bernard (2006). "Approximate nearest neighbors and the fast Johnson–Lindenstrauss transform". Proceedings of the 38th Annual ACM Symposium on Theory of Computing . New York: ACM Press. pp. 557—563. doi : . ISBN 1-59593-134-1 . MR .
  4. Slyusar, V. I. (December 27, 1996). (PDF) . Radioelectronics and Communications Systems.– 1998, Vol. 41; Number 3 : 50—53. (PDF) из оригинала 27 июля 2020 . Дата обращения: 30 июля 2020 .
  5. Slyusar, V. I. (1997-05-20). (PDF) . Proc. ICATT-97, Kyiv : 108—109. (PDF) из оригинала 25 января 2020 . Дата обращения: 30 июля 2020 .
  6. Slyusar, V. I. (1997-09-15). (PDF) . Proc. Direct and Inverse Problems of Electromagnetic and Acoustic Wave Theory (DIPED-97), Lviv. : 73—74. (PDF) из оригинала 25 января 2020 . Дата обращения: 30 июля 2020 .
  7. Slyusar, V. I. (March 13, 1998). (PDF) . Cybernetics and Systems Analysis C/C of Kibernetika I Sistemnyi Analiz.- 1999 . 35 (3): 379—384. doi : . (PDF) из оригинала 25 января 2020 . Дата обращения: 30 июля 2020 .
  8. Slyusar, V. I. (2003). (PDF) . Radioelectronics and Communications Systems . 46 (10): 9—17.
  9. Anna Esteve, Eva Boj & Josep Fortiana (2009): Interaction Terms in Distance-Based Regression, Communications in Statistics - Theory and Methods, 38:19, P. 3501 от 26 апреля 2021 на Wayback Machine
  10. Kasiviswanathan, Shiva Prasad, et al. "The price of privately releasing contingency tables and the spectra of random matrices with correlated rows." Proceedings of the forty-second ACM symposium on Theory of computing. 2010.
  11. Woodruff, David P. "Sketching as a Tool for Numerical Linear Algebra." Theoretical Computer Science 10.1-2 (2014): 1-157.
  12. Ahle, Thomas; Kapralov, Michael; Knudsen, Jakob; Pagh, Rasmus; Velingker, Ameya; Woodruff, David; Zandieh, Amir (2020). Oblivious Sketching of High-Degree Polynomial Kernels . ACM-SIAM Symposium on Discrete Algorithms. Association for Computing Machinery. doi : .

Литература

  • Achlioptas, Dimitris (2003), "Database-friendly random projections: Johnson-Lindenstrauss with binary coins", Journal of Computer and System Sciences , 66 (4): 671—687, doi : {{ citation }} : Указан более чем один параметр |DOI= and |doi= ( справка ) . Journal version of a paper previously appearing at PODC 2001.
  • Dasgupta, Sanjoy; Gupta, Anupam (2003), (PDF) , Random Structures & Algorithms , 22 (1): 60—65, doi : {{ citation }} : Указан более чем один параметр |DOI= and |doi= ( справка ) .
  • Landweber, Peter; Lazar, Emanuel; Patel, Neel (2015), " ".
Источник —

Same as Лемма о малом искажении