Interested Article - Коэффициент лексического разнообразия

Коэффициент лексического разнообразия (КЛР, индекс лексического разнообразия , англ. lexical diversity, LD ) — количественная характеристика текста, отражающая степень богатства словаря при построении текста заданной длины. В основе показателя лежит соотношение числа отдельных лексических единиц ( лемм , англ. types ) и количества их употреблений в тексте ( текстоформ , англ. tokens ).

Вычисляется по формуле

L_{d}=N_{\mathrm {lex} }/N

,

где

$L_{d}$ — коэффициент лексического разнообразия,

$N_{\mathrm {lex} }$ — количество уникальных лексем, или лемм, в анализируемом тексте,

$N$ — количество текстоформ (общее количество словоформ) в анализируемом тексте.

Лексически богатый текст обладает высоким коэффициентом лексического разнообразия, то есть на единицу объёма текста приходится максимальное количество уникальных единиц, лексически бедный текст обнаруживает тенденцию к повторению одних и тех же лексем, за счет чего его лексическое разнообразие снижается. При вычислении КЛР должно приниматься во внимание следующее ограничение: в то время как количество текстоформ потенциально бесконечно и может только увеличиваться по мере расширения массива анализируемых текстовых данных, количество лексем все-таки конечно. Поэтому вычислять КЛР рационально только для текстов ограниченного объёма. В вычислительной лингвистике предложено несколько вариантов решения этой проблемы .

Близким к КЛР является коэффициент лексической плотности текста ( англ. lexical density ), выражающий отношение самостоятельных частей речи в тексте к общему количеству слов. Более лексически плотными, таким образом, будут тексты, в которых используется меньше служебной лексики. Можно вычислять коэффициенты лексической плотности как для самостоятельных частей речи в целом, так и отдельно для существительных, прилагательных, глаголов, наречий.

Способы вычисления КЛР

TTR

TTR ( англ. type/token ratio ) — самый простой и самый критикуемый способ вычисления коэффициента лексического разнообразия, не принимающий во внимание влияние эффекта длины текста. TTR предположительно был введен в научный обиход в 1957 году в работе специалиста по лингводидактике М. Темплина . Например, TTR в английском выражении I have to buy some milk, because I have no milk («Мне надо купить молока, так как у меня нет молока») низок и составляет 0,73 (на 11 словоупотреблений приходится только 8 лексем, 8/11), а, например, во фразе I’ve run out of milk, so I need to buy some («У меня кончилось молоко, мне надо его купить») TTR уже выше (TTR = 10/11 = 0,91).

TTR можно вычислять, по-разному интерпретируя понятие type : под ним может подразумеваться
1) лексема во всей совокупности своих словоформ ( лемма ): например, лексема рубашка для форм рубашка, рубашки, рубашкой, рубашек и т. д.,
2) отдельная словоформа или совокупность омонимичных словоформ или даже омонимов по отношению к отдельным вхождениям этих словоформ в текст («текстоформам»): например, дома для текстоформ до́ма, дома́ .
Первое решение лингвистически корректно, но повышает требования к степени автоматизации вычисления коэффициента, так как предполагает умение морфологического анализатора осуществлять разметку по частям речи и лемматизацию. Второе уязвимо с теоретической точки зрения, обнаруживает зависимость от морфологии конкретного языка (что, например, снижает его достоверность при сравнении оригинальных и переводных текстов), однако легко автоматизируется.

VocD

Метод VocD ( англ. vocabulary diversity ) предложен в работах Д. Малверна и его коллег и представляет собой усовершенствованную версию TTR, сглаживающую эффекты длины текста. В основе метода лежит метод случайного отбора из текста фрагментов длиной от 35 до 50 текстоформ и вычисления для них TTR с последующим усреднением получившихся графиков.

Использование

Коэффициент лексического разнообразия оказывается важным измеряемым параметром в исследованиях по стилистике, дискурс-анализу, переводоведению (при сравнении оригинальных и переводных текстов), лингвистике детской речи.

Примечания

. Дата обращения: 21 января 2021. 28 января 2021 года.
Templin M. Certain language skills in children. — Minneapolis: University of Minnesota Press, 1957.
McKee, G., Malvern, D., & Richards, B. Measuring Vocabulary Diversity Using Dedicated Software. — Literary and Linguistic Computing. — 2000. — № 15(3). — С. 323—337.

Литература

Ure, J. (1971). Lexical density and register differentiation. In G. Perren and J.L.M. Trim (eds), Applications of Linguistics, London: Cambridge University Press. 443—452.