Interested Article - Частотный словарь

Часто́тный слова́рь (или частотный список) — набор слов данного языка (или подъязыка) вместе с информацией об их частотности . Словарь может быть отсортирован по частотности, по алфавиту (тогда для каждого слова будет указана его частотность), по группам слов (например, первая тысяча наиболее частотных слов, за ней вторая и т. п.), по типичности (слова, частотные для большинства текстов), и т. д. Частотные списки используются для преподавания языка, создания новых словарей, приложений компьютерной лингвистики, исследований в области лингвистической типологии, и т. д.

Построение частотных списков

Обычно частотные словари строятся на основе корпусов текстов: берется набор текстов, представительный для языка в целом, для некоторой предметной области или данного автора (см. ) и из него извлекаются словоформы, леммы и части речи (последние извлекаются в случае, если корпус имеет морфологическую разметку).

Проблемы при создании частотных списков заключаются в:

  • воспроизводимости (будут ли результаты идентичны на другом аналогичном корпусе),
  • всплесках частотности отдельных слов (частотность слова в одном тексте может повлиять на его позицию в частотном списке),
  • сложности определения позиции менее частотных слов, что не дает возможности ранжировать их рационально; например, слово белиберда входит в 20 000 наиболее частотных слов, в то время, как слово хрюкнуть находится за пределами списка первых 40 тысяч.

Все эти проблемы связаны с тем, что со статистической точки зрения язык представляет собой большое количество редких событий ( Закон Ципфа ), в результате чего небольшое количество слов встречается очень часто, а подавляющее большинство слов имеют очень невысокую частотность. Частотность слова и (самого частотного слова русского языка) примерно в 10 раз выше частотности слова о , которое в свою очередь встречается в 100 раз чаще таких обыденных слов как путешествие, старость или мода .

Для описания всплесков частотности можно использовать метафору хоббита (Адам Килгаррифф изначально использовал относительно редкое английское слово whelk, вид морского моллюска , англ. ): если несколько текстов в корпусе о хоббитах, то это слово будет употребляться почти в каждом предложении. В результате его частотность в этих текстах будет сравнима с частотностью служебных слов, но и в частотном списке большого корпуса, в который входят такие тексты, это слово будет иметь неправдоподобно высокий ранг. Такие всплески частотности можно оценивать с помощью коэффициента вариации : отношения стандартного отклонения к средней частотности.

Сравнение корпусов

Частотные словари обеспечивают возможность сравнить два корпуса, чтобы определить слова, наиболее характерные для каждого из них. Иногда в словарях указывается «абсолютная частотность», то есть количество появлений слова в корпусе. В связи с тем, что размеры корпусов могут быть различны, обычно указывается относительная частотность (обычно называемая просто «частотность»), то есть отношение числа появлений слова в корпусе к общему числу слов в корпусе. Иногда указываются обе величины. Относительная частотность иногда указывается в процентах, в промилле либо в миллионных долях ( англ. ipm, instances per million words ). Например, слово и имеет частотность 0,03 (3 %, или 30 ‰, или около 30 000 слов на миллион), слово старость — 0,00003 (0,003 %, или 0,03 ‰, или около 30 слов на миллион).

Для определения набора ключевых слов, отличающих один корпус от другого, можно использовать разные статистические меры: хи-квадрат , ( англ. ) и т. п.

См. также

Литература

  • Adam Kilgarriff. // International Journal of Lexicography. — 1997. — № 10(2) . — P. 135—155.
  • Ляшевская О. Н., Шаров С. А. . — М. : Азбуковник, 2009. — 1087 с. — ISBN 978-5-91172-024-7 .
  • Частотный словарь // Большая советская энциклопедия : [в 30 т.] / гл. ред. А. М. Прохоров . — 3-е изд. — М. : Советская энциклопедия, 1969—1978.
  • Частотный словарь русского языка / Под ред. Л. Н. Засориной. — М. : Русский язык, 1977.
  • // Лермонтовская энциклопедия / АН СССР. Ин-т рус. лит. (Пушкин. Дом); Науч.-ред. совет изд-ва «Сов. Энцикл.». — М. : Сов. Энцикл., 1981. — С. 717—774.
  • Шаров С. А. .
  • Штейнфельдт Э. А. Частотный словарь современного русского литературного языка. — М. , 1963.

Ссылки

Источник —

Same as Частотный словарь