Interested Article - Лемма (лингвистика)

Ле́мма ( англ. lemma ) — начальная, словарная форма слова . В русском языке для существительных и прилагательных это форма именительного падежа единственного числа, для глаголов и глагольных форм — форма инфинитива. Базовое понятие в области корпусной лингвистики , и автоматической обработки естественного языка . Процесс автоматического приведения слов текста к леммам называется лемматизация .

Например, фраза « Утром рано мама Милы мыла раму мылом » после лемматизации будет выглядеть так: утро, рано, мама, Мила, мыть, рама, мыло .

Лемма в корпусной лингвистике

В корпусной лингвистике поиск по лемме даёт контексты с упоминанием всех словоформ данной лексемы . Например, поиск по лемме кот даст контексты, содержащие кот, кота, коту, котами, котов и т. д. Этот тип поиска противопоставляется поиску по словоформе (word form search): в этом случае поиск по словоформе коту даст контексты, содержащие именно эту грамматическую форму единственного числа дательного падежа .

Лемма в информационном поиске и SEO-оптимизации

  • лемматизация запросов исключает дубли. Например, «куплю дом в Питере» и «купить дом Санкт-Петербург» — это одинаковые запросы
  • ключи в исходной форме гораздо проще отсортировать
  • появляется возможность оценить частотность того или иного запроса

Примечания

  1. Большакова Е. И., Воронцов К. В., Ефремова Н. Э., Клышинский Э. С., Лукашевич Н. В., Сапин А. С. . — М. : НИУ ВШЭ, 2017. 21 января 2022 года.
  2. (англ.) . SketchEngine . Дата обращения: 31 марта 2021. 3 марта 2021 года.
  3. (рус.) .

Литература

Источник —

Same as Лемма (лингвистика)