Interested Article - Nutch
- 2021-04-13
- 1
Apache Nutch — модульный фреймворк для построения поисковых систем, написанный на языке Java и основанный на технологиях Lucene , Solr , , Hadoop и , адаптированных для специфики поиска в интернете (например, поддерживается crawler , база ссылочной связи, парсинг HTML и других форматов). Архитектура Nutch позволяет разработчикам создавать плагины для обработки нового медиа-контента, получение данных через нестандартные каналы для формирования типовых запросов или организации поискового кластера.
Система предоставляет средства для построения высокомасштабных систем индексации, отвлеченных от типа хранилища, что позволяет использовать такие хранилища для больших объемов данных, как , , Apache Cassandra , Apache HBase и HDFS , так и SQL -базы и размещение в памяти NoSQL БД.
Использование
На базе Nutch 2.0, запущенного поверх 34-узлового Hadoop-кластера, построен поисковый сервис компании , в индексе которого находится более миллиарда страниц .
На основе Nutch построены поисковые системы:
- Creative Commons Search — запущен в 2004 году, имплементация Nutch заменена в 2006
- — прототип поиска по открытым образовательных ресурсам, разрабатывается Creative Commons
- Wikia Search — запущен в 2008 году, закрыт в 2009
- search2.net
Примечания
- — 2022.
- . Дата обращения: 9 января 2017. 14 июля 2012 года.
- . Creative Commons (3 сентября 2004). Дата обращения: 9 января 2017. 7 сентября 2011 года.
- . Creative Commons (22 ноября 2004). Архивировано из 22 июля 2013 года.
- . Creative Commons (2 августа 2006). Дата обращения: 9 января 2017. 7 ноября 2011 года.
- Дата обращения: 9 января 2017. Архивировано из 4 ноября 2011 года.
- . Дата обращения: 9 января 2017. 3 мая 2009 года.
Ссылки
- — официальный сайт Nutch
- (2004)- ACM Queue vol. 2, no. 2
- (2003)- Search Engine Watch
- (2003)- Tech News World
- 2021-04-13
- 1