Зако́н Хи́пса
—
эмпирическая закономерность
в
лингвистике
, описывающая распределение числа уникальных слов в документе (или наборе документов) как функцию от его длины. Описывается формулой
,
где
V
R
— число уникальных слов в тексте размера
n
.
K
и β — свободные параметры, определяются эмпирически. Для английского
корпуса текстов
K
обычно лежит между 10 и 100, а β между 0,4 и 0,6.
Закон часто приписывается Гарольду Стэнли Хипсу, но впервые был открыт Густавом Герданом.
С некоторым приближением закон Гердана — Хипса асимптотически эквивалентен
закону Ципфа
о частоте отдельных слов в тексте.
Примечания
: «Herdan’s law in linguistics and Heaps' law in information retrieval are different formulations of the same phenomenon».
;
harvtxt error: якоря не существует: CITEREFBaeaza-YatesNavarro2000 (
помощь
)
;
harvtxt error: якоря не существует: CITEREFvan_Leijenhorstvan_der_Weide2003 (
помощь
)
.
Ссылки
Baeza-Yates, Ricardo; Navarro, Gonzalo, "Block addressing indices for approximate text retrieval",
Journal of the American Society for Information Science
,
51
(1): 69—82,
doi
:
.
Egghe, L. (2007), "Untangling Herdan's law and Heaps' law: Mathematical and informetric arguments",
Journal of the American Society for Information Science and Technology
,
58
(5): 702,
doi
:
.
Heaps, Harold Stanley (1978),
Information Retrieval: Computational and Theoretical Aspects
, Academic Press
. Heaps' law is proposed in Section 7.5 (pp. 206—208).
Herdan, Gustav (1960),
Type-token mathematics
, The Hague: Mouton
.
Kornai, Andras (1999), "Zipf's law outside the middle range", in Rogers, James (ed.),
Proceedings of the Sixth Meeting on Mathematics of Language
, University of Central Florida, pp. 347—356
.
Milička, Jiří (2009), "Type-token & Hapax-token Relation: A Combinatorial Model",
Glottotheory. International Journal of Theoretical Linguistics
,
1
(2): 99—110,
doi
:
.
van Leijenhorst, D. C; van der Weide, Th. P. (2005), "A formal derivation of Heaps' Law",
Information Sciences
,
170
(2—4): 263—272,
doi
:
.