Шумовые слова
- 1 year ago
- 0
- 0
Стоп-слова , или Шумовые слова , — термин из теории поиска информации по ключевым словам .
Стоп-слова могут делиться на общие и зависимые .
К общим можно отнести предлоги , суффиксы , причастия , междометия , цифры , частицы и т. п. Общие шумовые слова всегда исключаются из поискового запроса (за исключением поиска по строгому соответствию поисковой фразы), также они игнорируются при построении инвертированного индекса . Считается, что каждое из общих стоп-слов есть почти во всех документах коллекции .
Зависимые стоп-слова зависят от поисковой фразы. Идея заключается в том, чтобы по-разному учитывать отсутствие просто слов из запроса и зависимых стоп-слов из запроса в найденном документе.
Например, при поиске по запросу Пушкин Александр Сергеевич , есть смысл отобразить все документы содержащие:
Но вряд ли есть смысл отображать документы, содержащие только:
То есть в данном запросе шумовыми словами являются Александр и Сергеевич .
Зависимые стоп-слова отличаются тем, что в поисковом запросе их следует учитывать только при наличии в искомом документе значимых ключевых слов.