Interested Article - Scrapy

Scrapy (читается как "скрэй-пай") – это бесплатный фреймворк для веб-краулинга находящийся в открытом доступе, который написан на языке программирования Python. Изначально задумывался для веб-скрейпинга , однако также может использоваться для извлечения информации используя API или же как веб краулер общего применения. В настоящее время фреймворк обслуживается компанией Scrapinghub Ltd., которая разрабатывает и предоставляет услуги в сфере веб-скрейпинга.

Архитектура проекта Scrapy построена вокруг «пауков», которые по сути являются автономными краулерами с заданными инструкциями. Следуя другим фреймворкам которые работают по принципу don't repeat yourself (DRY) , таких как Django , это упрощает создание и масштабирование больших проектов обхода контента, позволяя разработчикам повторно использовать свой код. Scrapy также предоставляет командную оболочку для веб-краулинга, которую разработчики могут использовать для проверки своих предположений о поведении сайта.

Некоторые известные компании и продукты, использующие Scrapy: Lyst, Parse.ly, Sayone Technologies , Sciences Po Medialab, государственный сайт Великобритании Data.gov.uk. от 16 августа 2018 на Wayback Machine

История

Scrapy создавался в лондонской компании Mydeco, занимающейся веб-агрегацией и электронной торговлей, где ее разработали и поддерживали сотрудники Mydeco и Insophia (консалтинговая компания из Монтевидео , Уругвай). Первый публичный релиз был в августе 2008 года под лицензией BSD , а релиз Milestone 1.0 был выпущен в июне 2015 года. В 2011 году Scrapinghub стал новым официальным мейнтейнером.

Примечания

  1. (англ.) . doc.scrapy.org . Дата обращения: 22 ноября 2022. 4 ноября 2022 года.
  2. от 17 сентября 2018 на Wayback Machine .
  3. . Дата обращения: 28 июля 2015. 11 ноября 2020 года.
  4. . Дата обращения: 28 июля 2015. 31 октября 2020 года.
  5. Bell. . Дата обращения: 28 июля 2015. Архивировано из 9 октября 2016 года.
  6. . Дата обращения: 28 февраля 2020. 12 ноября 2020 года.
  7. Montalenti. . Дата обращения: 28 февраля 2020. 19 сентября 2020 года.
  8. . Scrapy website . Дата обращения: 28 февраля 2020. 12 ноября 2020 года.
  9. Дата обращения: 28 февраля 2020. 13 июня 2016 года.
  10. (Mailing list). из оригинала 22 января 2011 . Дата обращения: 28 февраля 2020 .
  11. Pablo Hoffman. (англ.) . — 2013. 29 мая 2017 года.
  12. от 29 октября 2020 на Wayback Machine .

Ссылки

Источник —

Same as Scrapy