Австрийский биографический словарь
- 1 year ago
- 0
- 0
Часто́тный слова́рь (или частотный список) — набор слов данного языка (или подъязыка) вместе с информацией об их частотности . Словарь может быть отсортирован по частотности, по алфавиту (тогда для каждого слова будет указана его частотность), по группам слов (например, первая тысяча наиболее частотных слов, за ней вторая и т. п.), по типичности (слова, частотные для большинства текстов), и т. д. Частотные списки используются для преподавания языка, создания новых словарей, приложений компьютерной лингвистики, исследований в области лингвистической типологии, и т. д.
Обычно частотные словари строятся на основе корпусов текстов: берется набор текстов, представительный для языка в целом, для некоторой предметной области или данного автора (см. ) и из него извлекаются словоформы, леммы и части речи (последние извлекаются в случае, если корпус имеет морфологическую разметку).
Проблемы при создании частотных списков заключаются в:
Все эти проблемы связаны с тем, что со статистической точки зрения язык представляет собой большое количество редких событий ( Закон Ципфа ), в результате чего небольшое количество слов встречается очень часто, а подавляющее большинство слов имеют очень невысокую частотность. Частотность слова и (самого частотного слова русского языка) примерно в 10 раз выше частотности слова о , которое в свою очередь встречается в 100 раз чаще таких обыденных слов как путешествие, старость или мода .
Для описания всплесков частотности можно использовать метафору хоббита (Адам Килгаррифф изначально использовал относительно редкое английское слово whelk, вид морского моллюска , англ. ): если несколько текстов в корпусе о хоббитах, то это слово будет употребляться почти в каждом предложении. В результате его частотность в этих текстах будет сравнима с частотностью служебных слов, но и в частотном списке большого корпуса, в который входят такие тексты, это слово будет иметь неправдоподобно высокий ранг. Такие всплески частотности можно оценивать с помощью коэффициента вариации : отношения стандартного отклонения к средней частотности.
Частотные словари обеспечивают возможность сравнить два корпуса, чтобы определить слова, наиболее характерные для каждого из них. Иногда в словарях указывается «абсолютная частотность», то есть количество появлений слова в корпусе. В связи с тем, что размеры корпусов могут быть различны, обычно указывается относительная частотность (обычно называемая просто «частотность»), то есть отношение числа появлений слова в корпусе к общему числу слов в корпусе. Иногда указываются обе величины. Относительная частотность иногда указывается в процентах, в промилле либо в миллионных долях ( англ. ipm, instances per million words ). Например, слово и имеет частотность 0,03 (3 %, или 30 ‰, или около 30 000 слов на миллион), слово старость — 0,00003 (0,003 %, или 0,03 ‰, или около 30 слов на миллион).
Для определения набора ключевых слов, отличающих один корпус от другого, можно использовать разные статистические меры: хи-квадрат , ( англ. ) и т. п.