Interested Article - Частотный словарь

Часто́тный слова́рь (или частотный список) — набор слов данного языка (или подъязыка) вместе с информацией об их частотности . Словарь может быть отсортирован по частотности, по алфавиту (тогда для каждого слова будет указана его частотность), по группам слов (например, первая тысяча наиболее частотных слов, за ней вторая и т. п.), по типичности (слова, частотные для большинства текстов), и т. д. Частотные списки используются для преподавания языка, создания новых словарей, приложений компьютерной лингвистики, исследований в области лингвистической типологии, и т. д.

Построение частотных списков

Обычно частотные словари строятся на основе корпусов текстов: берется набор текстов, представительный для языка в целом, для некоторой предметной области или данного автора (см. ) и из него извлекаются словоформы, леммы и части речи (последние извлекаются в случае, если корпус имеет морфологическую разметку).

Проблемы при создании частотных списков заключаются в:

воспроизводимости (будут ли результаты идентичны на другом аналогичном корпусе),
всплесках частотности отдельных слов (частотность слова в одном тексте может повлиять на его позицию в частотном списке),
сложности определения позиции менее частотных слов, что не дает возможности ранжировать их рационально; например, слово белиберда входит в 20 000 наиболее частотных слов, в то время, как слово хрюкнуть находится за пределами списка первых 40 тысяч.

Все эти проблемы связаны с тем, что со статистической точки зрения язык представляет собой большое количество редких событий ( Закон Ципфа ), в результате чего небольшое количество слов встречается очень часто, а подавляющее большинство слов имеют очень невысокую частотность. Частотность слова и (самого частотного слова русского языка) примерно в 10 раз выше частотности слова о , которое в свою очередь встречается в 100 раз чаще таких обыденных слов как путешествие, старость или мода .

Для описания всплесков частотности можно использовать метафору хоббита (Адам Килгаррифф изначально использовал относительно редкое английское слово whelk, вид морского моллюска , англ. ): если несколько текстов в корпусе о хоббитах, то это слово будет употребляться почти в каждом предложении. В результате его частотность в этих текстах будет сравнима с частотностью служебных слов, но и в частотном списке большого корпуса, в который входят такие тексты, это слово будет иметь неправдоподобно высокий ранг. Такие всплески частотности можно оценивать с помощью коэффициента вариации : отношения стандартного отклонения к средней частотности.

Сравнение корпусов

Частотные словари обеспечивают возможность сравнить два корпуса, чтобы определить слова, наиболее характерные для каждого из них. Иногда в словарях указывается «абсолютная частотность», то есть количество появлений слова в корпусе. В связи с тем, что размеры корпусов могут быть различны, обычно указывается относительная частотность (обычно называемая просто «частотность»), то есть отношение числа появлений слова в корпусе к общему числу слов в корпусе. Иногда указываются обе величины. Относительная частотность иногда указывается в процентах, в промилле либо в миллионных долях ( англ. ipm, instances per million words ). Например, слово и имеет частотность 0,03 (3 %, или 30 ‰, или около 30 000 слов на миллион), слово старость — 0,00003 (0,003 %, или 0,03 ‰, или около 30 слов на миллион).

Для определения набора ключевых слов, отличающих один корпус от другого, можно использовать разные статистические меры: хи-квадрат , ( англ. ) и т. п.

См. также

Литература

Adam Kilgarriff. // International Journal of Lexicography. — 1997. — № 10(2) . — P. 135—155.
Ляшевская О. Н., Шаров С. А. . — М. : Азбуковник, 2009. — 1087 с. — ISBN 978-5-91172-024-7 .
Частотный словарь // Большая советская энциклопедия : [в 30 т.] / гл. ред. А. М. Прохоров . — 3-е изд. — М. : Советская энциклопедия, 1969—1978.
Частотный словарь русского языка / Под ред. Л. Н. Засориной. — М. : Русский язык, 1977.
// Лермонтовская энциклопедия / АН СССР. Ин-т рус. лит. (Пушкин. Дом); Науч.-ред. совет изд-ва «Сов. Энцикл.». — М. : Сов. Энцикл., 1981. — С. 717—774.
Шаров С. А. .
Штейнфельдт Э. А. Частотный словарь современного русского литературного языка. — М. , 1963.

Ссылки

Лексикография
Типы справочников	Глоссарий Лексика Разговорник Словарь Тезаурус
Типы словарей	Активный словарь Биографический словарь Грамматический словарь Идеографический словарь Медицинский словарь Обратный словарь Орфографический словарь Орфоэпический словарь Переводной словарь Словарь сокращений Словарь рифм Толковый словарь Фразеологический словарь Электронный словарь Машиночитаемый словарь Энциклопедический словарь Этимологический словарь
Прочее	Дефиниционный вокабуляр Даль Зализняк Мельчук Мюллер Ожегов Слонимский Срезневский Ушаков Чубинашвили Шведова
Портал лингвистики

Interested Article - Частотный словарь

Содержание

Построение частотных списков

Сравнение корпусов

См. также

Литература

Ссылки

Австрийский биографический словарь

Same as Частотный словарь

Частотный словарь

Частотный анализ

Частотный анализ

Частотный интервал

Частотный интервал

Частотный преобразователь (электропривод)

Частотный интервал

Частотный интервал

Частотный компаратор

Частотный словник

Австрийский биографический словарь

Интимный словарь (фильм)

Энциклопедический словарь Гранат

Исторический словарь по философии

The title for the last searches