Interested Article - Поисковый индекс

Лексический анализ и токенизация

Я перевожу статью с , и у меня возник вопрос. Как в русском употребить слово tokenization ?

У меня есть вариант 'разбор на лексемы' или 'разбор текста на лексемы'. Возможно, tokenization синоним лексического анализа ? petrinka 12:07, 4 ноября 2013 (UTC) [ ]

В соответствии со статьёй токенизация (т.е. разбиение на токены) является частью лексического анализа. Я согласен с этой точкой зрения. Когда будете упоминать в тексте токенизацию, можете поставить ссылку на статью в англовики, у нас такой статьи пока нет.
В Google Scholar 32 публикации с этим словом. -- Andrew Krizhanovsky 12:41, 4 ноября 2013 (UTC) [ ]
Спасибо. Тогда так и буду писать токенизация . petrinka 13:11, 4 ноября 2013 (UTC) [ ]

Недостаточно ссылок на АИ

"Большие куски текста без викификации и ссылок на литературу вызывают подозрение..."

Переводя статью из , я заметила, что большая часть второго раздела не содержит ссылок на литературу. Поскольку перевод дается мне нелегко, я хочу спросить, стоит ли переводить этот текст, или есть альтернативные варианты? petrinka 09:01, 7 ноября 2013 (UTC) [ ]

Оксана, переводите.
Там есть хоть какая-то викификация. А главное, там есть сколько-то продуманная структура. Сомневаюсь, что мы с вами так с ходу изобретём что-то сильно лучше.
P.S. Спасибо, что обращаете внимание на мои комментарии :) -- Andrew Krizhanovsky 13:18, 7 ноября 2013 (UTC) [ ]
Погуглила оригинальный текст, нашла некоторые АИ:) petrinka 13:41, 7 ноября 2013 (UTC) [ ]

Приближаюсь к рецензированию

Никак не получается перевести одно предложение, чтобы по-русски складно звучало:

Indexing low priority to high margin to labels like strong and link to optimize the order of priority if those labels are at the beginning of the text could not prove to be relevant.

Статью из англовики перевела целиком, остались некоторые стилевые правки. Нужно что-нибудь еще? petrinka 13:48, 10 ноября 2013 (UTC) [ ]

В разделе "HTML Priority System" какой-то непонятный бред написан. Не переводите этот раздел. Статей в инете с таким заголовком почти ноль. Кто-то пошутил. Поставил в англовики шаблон на раздел, что в нём написано.
Отлично. Доделывайте стиль. Сообщите, когда статья будет готова. Я распечатаю и передам вашему рецензенту. -- Andrew Krizhanovsky 16:29, 10 ноября 2013 (UTC) [ ]


Статья готова. petrinka 06:45, 11 ноября 2013 (UTC) [ ]

Рецензирование статьи Поисковый индекс

Здесь находятся завершившиеся обсуждения. Просьба не вносить изменений.

Хочу улучшить статью до статуса хорошей. Рассмотрю любые пожелания и замечания. petrinka 08:32, 15 ноября 2013 (UTC) [ ]

Не совсем понятно определение 1.1. Скорость поиска: "Как быстро можно найти слово в инвертированном индексе. Скорость нахождения записи в структуре данных по сравнению с тем, как быстро можно обновить или удалить индекс, является центром информатики". Смущает второе предложение, возможно, его следует перефразировать. 19:29, 17 ноября 2013 (UTC) [ ]

Как тебе такая формулировка? Важным для информатики является сравнение скорости нахождения записи в структуре данных и скорости обновления/удаления индекса. petrinka 08:16, 18 ноября 2013 (UTC) [ ]
Так гораздо читабельнее, мне нравится. 08:46, 18 ноября 2013 (UTC) [ ]
✔ Исправлено petrinka 09:33, 18 ноября 2013 (UTC) [ ]

Оксана, так как это перевод, то хорошо было бы, чтобы сохранялась викификация, например: в разделе Распознавание языка в скобках не хватает внутренней ссылки на части речи . Возможно ещё недостаёт ссылок, всю статью не читал!!! Gudach 14:28, 20 ноября 2013 (UTC) [ ]

Илья, внутренняя ссылка на части речи есть в разделе Проблемы при обработке естественного языка . petrinka 15:04, 20 ноября 2013 (UTC) [ ]

Добрый день! Заметил следующее:

  • ✔ Исправлено «информации время компенсирует дополнительную память» — может, наоборот, дополнительная память и время компенсируются уменьшением времени на обработку запроса?
  • ✔ Исправлено «Типы индексов бывают» — индексы бывают следующих типов?
  • ✔ Исправлено «Существует много удобных ситуаций для создания состояния гонки и когерентных отказов» — как-то криво. Как будто только и ждем ситуаций.
  • ✔ Исправлено архитектура поисковой системы может включать распределенные вычисления — поисковая система может основываться на архитектуре распределенных вычислений? Про унисон как-то коробит слух. Скоординированно?
  • частично ✔ Исправлено несколько опечаток и несогласований окончаний, стиль хромает в отдельных предложениях
  • ✔ Исправлено используют форму сжатия — ту или иную форму сжатия
  • раздел про сжатие неубедителен. «Сжатие является мерой стоимости»?
✔ Исправлено АИ подтверждающих это не нашла.
  • частично ✔ Исправлено почему именно с 2006 года? В разделе Синтаксический анализ документа много слов «обычно», «многие», а источников нет (по всей статье слишком много таких слов)
  • ✔ Сделано каким образом yacc и lex помогают обработке естественного языка? Это кажется странным. Нужен источник
  • ✔ Сделано списки в разделе Анализ формата документов требует источников. Если убрать слово «многие», то, наверное, этот список почти тривиален (все видят, что гугл, например, индексирует все эти форматы)

Общие замечания: текст несколько более популярно изложен чем обычно в Википедии. У меня это создало впечатление поверхностности. К концу статья несколько потеряла фокус (часть информации относится к поисковой системе вообще, а не к индексу). Также есть ощущение, что тема раскрыта не полностью. Например, для геоинформации, поиска по изображениям, видео, аудио есть свои технологии поиска, свои подходы к индексированию. Перспективы индексирования тоже остались неясны. Едет ли оно в сторону все более точного принятия во внимание семантики текста, например? Какие для этого решения созданы? Голосовой поиск (Siri) — какие особенности индекса у поиска «с подсказками», и т. п. Поисковый индекс — это не только для поиска в Интернете (жтот момент слегка упущен). Стиль текста еще шероховат. Некоторые предложения выглядят то ли неудачным переводом, то ли результатом правок нескольких человек. Полагаю, что в статье могли бы быть схемы, скажем, некой архитектуры системы индексирования, схема с краулерами, узлами обработки и хранения индексов, и т. п. Стиль и оформление можно подправить в самый последний момент — могу в этом помочь когда основное содержимое устоится.

Надеюсь, критика поможет улучшить статью. В целом работа проделана большая и положительная! Желаю успехов. РоманСузи 17:58, 20 ноября 2013 (UTC) [ ]

Спасибо, очень ценные замечания. Статья является переводом , в которой второй раздел, к сожалению, почти не содержит ссылок на литературу. Над стилем буду работать. petrinka 14:42, 24 ноября 2013 (UTC) [ ]


Привет, Оксана! Спасибо за то, что помогаешь делать мир лучше и несешь знания в массы! С интересом прочитал статью, буду рекомендовать ее своим студентам для прочтения. Однако при прочтении у меня возникло несколько замечаний, поэтому внесу немного критики.(внимание, включаю зануда_режим)

  • 1) В этом разделе Поисковый_индекс#.D0.A2.D0.BE.D0.BA.D0.B5.D0.BD.D0.B8.D0.B7.D0.B0.D1.86.D0.B8.D1.8F у тебя есть строчка "В отличие от грамотных людей, компьютеры не понимают структуру документа ". Здесь меня смущает сравнении с грамотными людьми по двум причинам: во-первых - что можно подразумевать под понятием "грамотным"? Если судить по определению, которые идет по ссылке, то тогда в категорию "неграмотных людей" попадает очень большое количество людей, например, в России(как и автор этого отзыва), но эта характеристика совсем не мешает им понимать структуру документа и даже, о боже, автоматически распознавать слова и предложения(правда не особо вникая в суть). Во-вторых, человек "грамотный" для своего родного языка может являться неграмотным для носителей другого языка, но это, в свою очередь совсем не мешает ему понимать и распознавать структуру документа на этом неродном языке. И в-третьих, я, как представитель "неграмотного" большинства просто возмущен тем, что на таком солидном сайте ставится в сомнении моя компетенция распознавать структуру документов на естественном языке. Это просто какой-то грамматический шовинизм и боюсь что он может задеть и ранить чувства других неграмотных людей. Поэтому рекомендую заменить эту метафору про "грамотного человека и компьютера" на какую-либо другую, так как она является не совсем точной.
✔ Исправлено заменила грамотных на большинства . Здесь, конечно, подразумеваются люди, которые умеют читать и при этом понимают, что читают. Не думала, что задену чьи-то чувства. Хотя, по-моему скромному мнению, твое замечание — бред . Приношу свои извинения. petrinka 15:54, 1 декабря 2013 (UTC) [ ]
✔ Сделано добавила ссылки. petrinka 15:54, 1 декабря 2013 (UTC) [ ]
✔ Исправлено petrinka 15:54, 1 декабря 2013 (UTC) [ ]
  • 4)Этом же разделе, далее, у тебя написано, что если поисковая система не видит контент, выведенный с помощью javascript, то индексация проходит неправильно. Очень хотелось бы, чтобы к такому громкому высказыванию была ссылка на авторитетный источник.
✔ Сделано уточнение. petrinka 15:54, 1 декабря 2013 (UTC) [ ]

А то в следующем предложении уже упоминается "Учитывая, что некоторые поисковые системы не беспокоятся о проблемах...". То есть получается они его не видят этот "контент". То есть получается, что они индексируют неправильно(если судить по предыдущему предложению)? Если они индексируют неправильно, зачем вообще тогда делать упоминания об этих поисковых системах. В общем, мне кажется, что данный абзац требует небольшой переработки и изменению формулировок ,и поэтому прошу обратить на него твое внимание.

Повторюсь, что статья переводная. Если стиль изложения кривой, можешь подправить его как считаешь нужным. petrinka 15:54, 1 декабря 2013 (UTC) [ ]

P.S.: Ссылок на АИ действительно не хватает. Этот вопрос обсуждался . petrinka 15:54, 1 декабря 2013 (UTC) [ ]

Источник —

Same as Поисковый индекс