Коэффициент трансформации
- 1 year ago
- 0
- 0
Коэффициент лексического разнообразия (КЛР, индекс лексического разнообразия , англ. lexical diversity, LD ) — количественная характеристика текста, отражающая степень богатства словаря при построении текста заданной длины. В основе показателя лежит соотношение числа отдельных лексических единиц ( лемм , англ. types ) и количества их употреблений в тексте ( текстоформ , англ. tokens ).
Вычисляется по формуле
где
Лексически богатый текст обладает высоким коэффициентом лексического разнообразия, то есть на единицу объёма текста приходится максимальное количество уникальных единиц, лексически бедный текст обнаруживает тенденцию к повторению одних и тех же лексем, за счет чего его лексическое разнообразие снижается. При вычислении КЛР должно приниматься во внимание следующее ограничение: в то время как количество текстоформ потенциально бесконечно и может только увеличиваться по мере расширения массива анализируемых текстовых данных, количество лексем все-таки конечно. Поэтому вычислять КЛР рационально только для текстов ограниченного объёма. В вычислительной лингвистике предложено несколько вариантов решения этой проблемы .
Близким к КЛР является коэффициент лексической плотности текста ( англ. lexical density ), выражающий отношение самостоятельных частей речи в тексте к общему количеству слов. Более лексически плотными, таким образом, будут тексты, в которых используется меньше служебной лексики. Можно вычислять коэффициенты лексической плотности как для самостоятельных частей речи в целом, так и отдельно для существительных, прилагательных, глаголов, наречий.
TTR ( англ. type/token ratio ) — самый простой и самый критикуемый способ вычисления коэффициента лексического разнообразия, не принимающий во внимание влияние эффекта длины текста. TTR предположительно был введен в научный обиход в 1957 году в работе специалиста по лингводидактике М. Темплина . Например, TTR в английском выражении I have to buy some milk, because I have no milk («Мне надо купить молока, так как у меня нет молока») низок и составляет 0,73 (на 11 словоупотреблений приходится только 8 лексем, 8/11), а, например, во фразе I’ve run out of milk, so I need to buy some («У меня кончилось молоко, мне надо его купить») TTR уже выше (TTR = 10/11 = 0,91).
TTR можно вычислять, по-разному интерпретируя понятие
type
: под ним может подразумеваться
1) лексема во всей совокупности своих словоформ (
лемма
): например, лексема
рубашка
для форм
рубашка, рубашки, рубашкой, рубашек
и т. д.,
2) отдельная словоформа или совокупность омонимичных словоформ или даже омонимов по отношению к отдельным вхождениям этих словоформ в текст («текстоформам»): например,
дома
для текстоформ
до́ма, дома́
.
Первое решение лингвистически корректно, но повышает требования к степени автоматизации вычисления коэффициента, так как предполагает умение морфологического анализатора осуществлять разметку по частям речи и лемматизацию. Второе уязвимо с теоретической точки зрения, обнаруживает зависимость от морфологии конкретного языка (что, например, снижает его достоверность при сравнении оригинальных и переводных текстов), однако легко автоматизируется.
Метод VocD ( англ. vocabulary diversity ) предложен в работах Д. Малверна и его коллег и представляет собой усовершенствованную версию TTR, сглаживающую эффекты длины текста. В основе метода лежит метод случайного отбора из текста фрагментов длиной от 35 до 50 текстоформ и вычисления для них TTR с последующим усреднением получившихся графиков.
Коэффициент лексического разнообразия оказывается важным измеряемым параметром в исследованиях по стилистике, дискурс-анализу, переводоведению (при сравнении оригинальных и переводных текстов), лингвистике детской речи.