Interested Article - Web ARChive

Формат архива W eb ARC hive ( WARC ) определяет метод объединения нескольких цифровых ресурсов в совокупный архивный файл вместе с сопутствующей информацией. Формат WARC является пересмотром формата ARC_IA File Format архива интернета , который традиционно использовался для хранения данных " поисковых роботов ", как последовательностей блоков контента, собранных из всемирной паутины . Формат WARC обобщает старый формат, чтобы лучше поддерживать потребности архивных организаций в сборе, доступе и обмене данными. Помимо первичного контента, который записывается в настоящее время, пересмотр вмещает связанный вторичный контент, такой как назначенные метаданные , сокращенные события, обнаружение дубликатов и преобразования более поздних дат. Формат WARC вдохновлен HTTP/1.0, с похожим заголовком и использованием CRLF в качестве разделителей, что делает его очень удобным для реализации.

Впервые указанный в 2008 году WARC теперь признан большинством национальных библиотечных систем в качестве стандарта для веб-архивирования .

Программное обеспечение

Примечания

  1. (англ.) (17 марта 2018). Дата обращения: 15 октября 2021. 26 октября 2021 года.
Источник —

Same as Web ARChive