Interested Article - Закон Хипса

Типичный график, иллюстрирующий закон Хипса. По оси x — размер текста, по оси y — число уникальных слов в тексте. Сравните значения на двух осях

Зако́н Хи́пса эмпирическая закономерность в лингвистике , описывающая распределение числа уникальных слов в документе (или наборе документов) как функцию от его длины. Описывается формулой

,

где V R — число уникальных слов в тексте размера n . K и β — свободные параметры, определяются эмпирически. Для английского корпуса текстов K обычно лежит между 10 и 100, а β между 0,4 и 0,6.

Закон часто приписывается Гарольду Стэнли Хипсу, но впервые был открыт Густавом Герданом. С некоторым приближением закон Гердана — Хипса асимптотически эквивалентен закону Ципфа о частоте отдельных слов в тексте.

Примечания

  1. : «Herdan’s law in linguistics and Heaps' law in information retrieval are different formulations of the same phenomenon».
  2. ; ; .

Ссылки

  • Baeza-Yates, Ricardo; Navarro, Gonzalo, "Block addressing indices for approximate text retrieval", Journal of the American Society for Information Science , 51 (1): 69—82, doi : .
  • Egghe, L. (2007), "Untangling Herdan's law and Heaps' law: Mathematical and informetric arguments", Journal of the American Society for Information Science and Technology , 58 (5): 702, doi : .
  • Heaps, Harold Stanley (1978), Information Retrieval: Computational and Theoretical Aspects , Academic Press . Heaps' law is proposed in Section 7.5 (pp. 206—208).
  • Herdan, Gustav (1960), Type-token mathematics , The Hague: Mouton .
  • Kornai, Andras (1999), "Zipf's law outside the middle range", in Rogers, James (ed.), Proceedings of the Sixth Meeting on Mathematics of Language , University of Central Florida, pp. 347—356 .
  • Milička, Jiří (2009), "Type-token & Hapax-token Relation: A Combinatorial Model", Glottotheory. International Journal of Theoretical Linguistics , 1 (2): 99—110, doi : .
  • van Leijenhorst, D. C; van der Weide, Th. P. (2005), "A formal derivation of Heaps' Law", Information Sciences , 170 (2—4): 263—272, doi : .
Источник —

Same as Закон Хипса