Interested Article - Архивирование веб-сайтов

Архиви́рование веб-сайтов ( веб-архиви́рование , англ. web archiving ) — процесс сбора и «дублирования» веб-страниц и целых сайтов с целью сохранения информации и доступа к ней в будущем, если источник окажется недоступен. Предпосылками для развития веб-архивирования стали проблемы вымирания ссылок и потенциальное наступление цифрового тёмного века . В 1996 году был создан « Архив Интернета » — первая некоммерческая организация , поставившая перед собой цель создать «снимки» всех страниц в интернете. В 2001 году «Архив» запустил сервис по архивированию сайтов Wayback Machine , через который по состоянию на 2021-й год было сохранено более 600 млрд веб-страниц.

С начала 2000-х годов практики сохранения веб-сайтов активно внедряют во многих странах, в том числе и на государственном уровне. При этом действуют площадки по разработке стандартов и общих практик в сфере веб-архивирования, включая Международный семинар архивирования Интернета (IWAW) (с 2001-го) и (с 2003-го).

Чаще всего информацию со статических сайтов собирают с помощью поисковых роботов (например, , Webrecorder, HTTrack ), которые отправляют HTTP -запросы на веб-сервера и «захватывают» передаваемый контент и все гиперссылки из просканированных веб-страниц. Напротив, скрипты , шаблоны и контент динамических сайтов хранится на веб-серверах как отдельные ресурсы, поэтому архивировать такие порталы гораздо сложнее. Процесс проходит в два основных этапа — сохранение файловых данных из структуры каталогов веб-сайта и последующее архивирование информации из базы данных.

Определение

Термины веб-архивирование и веб-сохранение ( англ. web preservation ) часто используют как взаимозаменяемые, однако между ними существует важное различие: первый определяет весь процесс сохранения интернет-ресурса, а второй — только один из этапов . (IIPC) определяет веб-архивирование как:

[...] процесс сбора частей всемирной паутины, сохранение коллекций в архивном формате и последующее обслуживание архивов с целью предоставления к ним доступа и использования.

Предпосылки

Компьютерный терминал с лазерным диском, содержащим информацию проекта BBC Domesday Project 1986 года

С начала 1990-х годов создание, хранение и распространение информации происходит в основном в цифровой среде. Уже к середине 1990-х годов начали устаревать ранее популярные носители информации , такие как магнитные ленты , дискеты , zip-накопители и компакт-диски , а доступ к старым файловым форматам затруднялся . Стали исчезать многие крупные базы данных, которые не были скопированы на другие носители или продублированы на бумаге . Так, все данные крупномасштабного проекта BBC Domesday Project , проведённого в 1980-е годы при участии более миллиона человек, были записаны на несколько дисков, которые к началу 2000-х годов были либо сломаны, либо потеряны .

Повсеместная утеря данных привела к тому, что отдельные исследователи начали обсуждать потенциальное наступление «цифрового тёмного века» ( англ. digital dark age ) — периода, характеризуемого практически полным отсутствием письменных свидетельств . Некоторые исследователи называют XXI век «информационной чёрной дырой» из опасения, что программное обеспечение и компьютеры будущего не смогут воспроизвести созданные ранее данные . В 2003 году ЮНЕСКО выпустила «Хартию о сохранении цифрового наследия» , определяющую важность резервации цифровых данных, потеря которых может привести к «обеднению» человеческого наследия . В 2015 году с заявлением о том, что человечество движется к «цифровому тёмному веку», выступил американский учёный и вице-президент Google Винтон Серф .

Другой предпосылкой для развития веб-архивирования является вымирание ссылок — ситуация, когда страницы становятся недоступны по прежним URL или изменяются их содержание . Проведённый португальскими исследователями в 2017 году анализ показал, что около 80 % интернет-страниц недоступны в исходном виде уже спустя год после публикации, при этом 13 % ссылок в научных статьях исчезали в среднем через 27 месяцев . В 2021 году учёные юридического факультета Гарвардского университета вместе с журналистами The New York Times (NYT) проанализировали жизнеспособность ссылок в более чем 550 тысячах выпущенных NYT онлайн-публикациях в период за 2000—2017 годы — около четверти используемых URL-адресов «вымерли» . Средняя продолжительность жизни веб-страницы составляет 44-100 дней, а на новостных сайтах и в социальных сетях информация может исчезать ещё быстрее .

Информация в интернете может исчезать и по другим причинам. Так, в 2015 году Государственный департамент США и Агентство США по международному развитию инициировали удаление материалов о войне в Афганистане с целью уберечь сотрудничавших с американскими властями людей от преследования талибами . Другой пример — выдвинутые в декабре 2021 года требования Роскомнадзора удалить из ряда российских СМИ материалы о расследованиях издания « Проект », ранее признанного нежелательной организацией .

Развитие

Начиная с 1980-х годов отдельные архивы и библиотеки начали сохранять электронные ресурсы с целью задокументировать хронику актуальных событий. Однако отправной точкой веб-архивирования считается создание в 1996 году « Архива Интернета » — некоммерческой организации , поставившей амбициозную цель сохранить все веб-страницы всего интернета, которых в тот момент было относительно немного . В конце 1990-х — начале 2000-х годов правительства многих развитых стран стали внедрять практики веб-архивирования, возложив ответственность за их ведение на национальные библиотеки, обладающие необходимым опытом и инструментами для архивации . К 2000 году национальные веб-архивы появились во многих странах, включая Великобританию , Новую Зеландию , США и Чехию .

С тех пор количество проектов по веб-архивированию растёт с каждым годом . В 2011 году в мире действовало 42 программы, большинство из которых занимались сбором региональных веб-источников . Исследование 2020 года показало экспоненциальный рост числа учреждений, имеющих собственные репозитории , работа которых поддерживается благодаря нанятым специалистам и специализированному оборудованию. Большинство таких репозиториев пополняется по принципу самоархивирования — авторы самостоятельно размещают там свои материалы . К 2019 году веб-архивы на национальном уровне были внедрены практически во всех странах Европейского союза , чаще всего — в рамках работы национальных библиотек .

Организации

«Архив Интернета»

Первой крупнейшей инициативой по веб-архивированию стал «Архив Интернета» — некоммерческая организация, созданная в 1996 году для сохранения всех размещённых в интернете материалов . Создателем стал американский программист Брюстер Кейл , одновременно запустивший «Архив» и коммерческую систему веб-архивирования Alexa Internet . В 1997 году он разработал браузерный плагин , через который Alexa Internet автоматически определяла и сохраняла в «Архив» «ценные» веб-страницы , ранжируя их по количеству посещений, перекрёстных ссылок и «кликов» . С 1998 года количество страниц для архивации увеличивалось вдвое каждые 3—6 месяцев .

24 октября 2001 года «Архив Интернета» запустил сервис Wayback Machine , через который пользователи могли получить доступ к более чем 10 млрд заархивированных веб-страниц. В то время данные хранились на серверах Hewlett Packard и uslab.com и управлялись через операционные системы FreeBSD и Linux .

На 2021 год коллекция «Архива» состояла из множества подколлекций архивированных веб-сайтов, оцифрованных книг, аудио и видео файлов, игр, программного обеспечения ; при этом число заархивированных веб-страниц составило более 622 млрд .

WebCite

Сервис WebCite был запущен в 2003 году и стал первым инструментом веб-архивирования, позволяющим пользователям сохранять веб-сайты по запросу. WebCite быстро набрал популярность и уже к 2005 году около 200 журналов просили авторов архивировать используемые веб-страницы через WebCite перед отправкой рукописей . Сервис не использует поисковых роботов для «захвата» страниц, архивация происходит напрямую по запросу пользователя .

В 2013 году WebCite был под угрозой закрытия из-за недостатка финансирования, однако благодаря публичной кампании по сбору средств создателя Гюнтера Айзенбаха портал продолжал свою работу ещё шесть лет. С 2019 года он стал доступен только для чтения и перестал принимать запросы на архивацию .

Archive.today

Сервис archive.today (при создании — archive.is) был запущен в 2012 году одноимённой некоммерческой организацией . Финансирование проекта осуществляется на деньги частных спонсоров. Также как и WebCite, archive.today сохраняет веб-страницы по запросу пользователей , размещая в открытом доступе функциональную копию веб-страницы и снимок экрана , представляющий статичную визуализацию страницы в формате PNG . Размер заархивированной страницы со всеми изображениями не должен превышать 50 МБ .

Создатели archive.today также запустили специальное расширение браузера Mozilla Firefox , автоматически сохраняющее и выкладывающее в общий доступ копии каждой добавляемой пользователем в закладки веб-страницы .

Национальные библиотеки

В большинстве развитых стран действуют законы об обязательном экземпляре , возлагающие юридическую ответственность на национальные библиотеки сохранять один экземпляр каждого опубликованного в этой стране печатного издания. С повсеместным развитием средств электронной коммуникации действие закона распространили и на веб-сайты . Так, согласно , и обязаны сохранять все важные постановления правительства Великобритании . Поскольку чиновники всё чаще публикуют свои отчёты в интернете, веб-архив ежемесячно посещают более 100 млн пользователей (на 2013-й год) .

В 1996 году Национальная библиотека Швеции инициировала проект Kulturar, в рамках которого осуществлялось крупномасштабное сохранение всей шведской сети доменов . К началу 2005 года было собрано более 350 000 веб-сайтов или около 10 терабайт данных, благодаря чему веб-архив стал крупнейшим на тот момент в мире . В 1997 году была создана совместная инициатива национальных библиотек Дании , Финляндии , Исландии , Норвегии , Швеции под названием Nordic Web Archive (NWA). В рамках NWA велась разработка инструментов и обсуждались методы веб-архивирования для скандинавских стран. В 2004 году NWA выпустил программный пакет для доступа к архивированным веб-документам, который впоследствии лёг в основу Toolkit . В этом же году Национальная библиотека Австралии запустила — проект по сохранению электронных ресурсов Австралии . В 2019 году коллекция Pandora вошла в — один из крупнейших национальных веб-архивов в мире .

Коллаборации

Логотип Международного Консорциума Сохранения Интернета

Логотип проекта Internet Memory Foundation, закрытого в 2018 году

В 2001 году был создан Международный семинар архивирования Интернета (IWAW) — площадка по обмену исследованиями и опытом в сфере веб-архивирования , а в 2003-м по инициативе «Архива Интернета» основали , в рамках которого ведётся разработка стандартов и инструментов веб-архивирования . Помимо «Архива», в состав IIPC вошли национальные библиотеки Франции , Австралии , Канады , Дании , Финляндии , Исландии , Италии , Норвегии , Швеции , Великобритании , США . В 2008-м в рамках IIPC был разработан Web ARChive или WARC — формат для архивации веб-ресурсов . На 2021 год в IIPC состояло более 50 членов .

Организации часто сотрудничают для создания объединённых веб-архивов. Так, с 2004 по 2018 год действовал Европейский цифровой архив (впоследствии переименованный в ), занимающийся сбором электронных документов в странах Европейского союза . Среди прочих, в его состав входили Национальные архивы Великобритании, Общество Макса Планка , Берлинский технический университет , Саутгемптонский университет , . В начале 2000-х годов департаменты китаеведения Гейдельбергского и Лейденского университетов совместно запустили веб-архив DACHS, содержащий электронные материалы по синологии . Такие консорциумы как NWA и UKWAC проводили программы совместного сбора данных в партнёрстве с другими организациями . В конце 1990-х годов Европейская комиссия профинансировала создание Networked European Deposit Library (NEDLIB) — проекта по сбору, описанию, хранению и открытию доступа к сохранённым европейским веб-сайтам . Выпущенный в 2000 году NEDLIB Harvester стал одним из первых поисковых роботов , специально созданных для архивации данных. Впоследствии его использовали в ряде проектов, в том числе для сбора данных с нидерландских , эстонских и исландских веб-доменов .

В июле 2011 года Национальный архив Великобритании совместно с Internet Memory Foundation запустили пилотный проект по веб-архивированию цифровых данных для местных органов власти. Проект действовал в семи архивах муниципальных образований, охватывающих более 20 местных органов власти. Персонал прошёл бесплатное обучение по созданию кураторского веб-архива для своей области .

Университеты развитых стран также участвуют в развитии веб-архивирования. Например, в Мичиганском , Индианском , Калифорнийском , Иллинойсском и других университетах предлагают курсы по обучению архивации цифровых материалов , а несколько учреждений создали собственные веб-архивы для исследовательских целей — Stanford WebBase Archive ( Стэнфордский университет ), Socio-Sense ( Токийский университет ), веб-информационный центр ( Пекинский университет ) .

Отбор источников

Перед началом архивации каждая организация определяет критерии «отбора» источников. Таких критериев может быть один или несколько, в зависимости от размера и целей организации . Некоторые веб-архивы, такие как «Архив Интернета», ставят перед собой цель собрать все возможные веб-страницы — такой подход называют неселективным или широким сканированием . В его основе лежит принцип взаимосвязанности всемирной паутины , согласно которому по-настоящему «сохранить» какую-либо тему можно только собрав все существующие веб-страницы, так как они все связаны между собой. Помимо этого, отбор веб-сайтов является дорогостоящим и трудоёмким процессом, который также может привести к субъективной выборке . Однако подход «Архива» считается невыполнимым на практике — сохранение всех страниц невозможно из-за ограничений, связанных с авторским правом, и даже «Архив Интернета» сохраняет только доступные общественности материалы .

Альтернативой неселективному подходу к отбору является выборочный подход или выбор ресурсов, основываясь на их принадлежности к заранее заданным критериям — домену (например, .gov или .edu ), теме, событию, типу мультимедиа или жанру . Выборочный подход часто совмещают с практиками широкого сканирования — например, если организация архивирует все порталы с определённым доменным именем. Так, Национальная библиотека Швеции с 1996 года производит сбор всех веб-сайтов с доменом « .se » , а Национальная библиотека Великобритании архивирует веб-сайты с доменами «.gov.uk», «.org.uk» и «.co.uk». Библиотека НАСА Центра космических полётов Годдарда сохраняет все веб-страницы с доменным именем Центра . Главным преимуществом выборочного архивирования является то, что такой подход позволяет создать более управляемые по размеру коллекции со связанными ресурсами .

Выборочный подход применяют и для создания тематических коллекций. Например, DACHS собирает социальные и культурные ресурсы по синологии, а Библиотека Конгресса , совместно с Архивом Интернета, скомпилировала веб-архивы о президентских выборах в США и событиях 11 сентября . Британская библиотека специализируется на веб-сайтах, представляющих «ценность для национальной культуры» . Такой подход применяет и проект Pandora Национальной библиотеки Австралии . В 2006 году «Архив Интернета» запустил сервис Archive It по созданию тематических веб-коллекций , которым зачастую пользуются отдельные организации, например, Национальный музей женского искусства .

Некоторые организации архивируют ресурсы по типу представленных источников. Так, библиотека Центра космических полётов Годдарда избегает сканирования больших видеофайлов и программных продуктов. Наоборот, другие проекты веб-архивируют видео на Youtube или собирают блоги, виртуальные газеты — например, Национальная библиотека Франции создала отдельную веб-коллекцию для Живых Журналов .

Сбор данных

Статические сайты

Чем проще и статичнее сайт, тем легче его архивировать — копии данных загружаются с веб-сервера в виде файлов, которые впоследствии можно преобразовать в другие форматы .

Процесс автоматического сбора веб-страниц через поисковых роботов называют web harvesting или «сканированием». Роботу передают список URL-адресов, следуя по которым он отправляет HTTP -запросы на веб-сервера и «захватывает» передаваемый контент и все гиперссылки из просканированных веб-страниц . Затем автоматизированное ПО преобразует информацию в формат WARC, и в итоге получается файл , который можно воспроизвести с помощью таких инструментов, как Wayback Machine . Примерами поисковых роботов являются разработанный «Архивом Интернета» в 2004 году , а также HTTrack и Wget . Сеть «сканеров» позволяет организациям сохранять копии выбранных сайтов с некоторой периодичностью — например, ежедневно или ежегодно . Для более точечного архивирования используют инструменты меньшего масштаба — например, HTTrack , который позволяет загружать копии веб-сайтов на локальный компьютер .

Динамические сайты

Архивировать динамические сайты гораздо сложнее, чем статические, поскольку контент, скрипты и шаблоны хранятся на веб-сервере как отдельные ресурсы. а вид и содержимое страницы формируется в зависимости от браузера клиента и настроек сервера. В отличие от статических веб-сайтов, автоматической обработки HTTP -запроса недостаточно, поскольку со стороны сервера сайт генерирует контент, используя базу данных . Поэтому сохранение таких ресурсов происходит в два этапа — сохранение файловых данных, находящихся в структуре каталогов веб-сайта, и архивирование информации базы данных . Для динамических сайтов использование поисковых роботов имеет свои ограничения . К инструментам веб-архивирования динамического контента относят программные обеспечения Software Independent Archiving of Relational Databases (SIARD), разработанное Швейцарским федеральным Архивом , и DeepArc Национальной библиотеки Франции . SIARD автоматически анализирует и отображает структуру исходной базы данных. Затем он экспортирует структуру в виде текстового файла, содержащего определение данных, описанное с использованием SQL — международного стандарта для описания реляционной базы данных . Впоследствии содержимое экспортируется в качестве обычного текстового файла, а метаданные сохраняются как XML -документ .

Архивация социальных сетей

Первые проекты по архивированию социальных сетей начали появляться с 2008 года как систематическое широкое сканирование платформ. Так, Национальная библиотека Новой Зеландии начала работу по созданию архива опубликованных в Твиттере сообщений, а Национальная библиотека Франции сканировала Facebook . Однако из-за большого объёма производимого контента, отсутствия технических стандартов по сбору и хранению информации, а также постоянно меняющихся технических деталей работы порталов, впоследствии организации начали применять выборочный подход к веб-архивированию социальных сетей и сохранять сообщения только о конкретных событиях или чрезвычайных ситуациях. Отдельные организации, например, Национальная библиотека Франции или Национальная библиотека Канады, запустили непрерывный автоматизированный сбор новостей и контента социальных сетей, чтобы не упустить реакцию людей на непредвиденные события. Выборка осуществляется по заданным хештегам или ключевым словам , за определённый период или конкретной платформе .

Инструменты

Для сбора веб-сайтов используют различные инструменты веб-архивирования. Наиболее часто встречается поисковой робот Heritrix — доступный по лицензии свободного программного обеспечения веб-сканер общего назначения, разработанный с учётом задач веб-архивирования. Heritrix сохраняет файлы в формате WARC и хорошо подходит для крупномасштабных операций сканирования, однако в меньшей степени «захватывает» динамические сайты или страницы в социальных сетях. Разработанный на основе Heritrix NetarchiveSuite предоставляет дополнительные функции в области долгосрочного хранения и доступа к материалам .

Webrecorder использует браузер для сбора содержимого веб-сайтов, тем самым решая частые проблемы других поисковых роботов — захват динамического контента, Adobe Flash , мультимедиа . Программа «записывает» веб-страницы во время их просмотра пользователем, поэтому хорошо подходит для выборочного сканирования. Содержание также сохраняется в формате WARC . Другой поисковой робот, Brozzler , использует движок браузера Google Chrome для сбора страниц и предлагает те же преимущества, что и Webrecorder, но не требует взаимодействия с пользователем во время сканирования .

HTTrack позволяет загружать копии веб-сайтов на локальный компьютер, и впоследствии пользователь может просмотреть их через браузер . Wget и аналогичный инструмент Wpull — универсальные инструменты командной строки, которые имеют встроенные функции сканирования веб-страниц, сравнимые с HTTrack. Wpull лучше подходит для масштабного архивирования .

Из-за динамической структуры сайтов социальных сетей для их архивации требуются специализированные инструменты. Обычно веб-архивирование выполняется с использованием интерфейсов прикладного программирования или API , предоставляемых разработчиками. F (b) arc — инструмент командной строки, который можно использовать для архивирования данных с помощью интерфейса Facebook Graph. Twarc — инструмент и библиотека командной строки, которые упрощают использование API-интерфейсов Twitter. Social Feed Manager позволяет собирать данные из Twitter, Tumblr , Flickr и Sina Weibo .

Чаще всего для архивирования используют форматы ARC и WARC . Большинство инициатив используют решения на основе Lucene для поддержки полнотекстового поиска , включая NutchWAX или Solr , Wayback Machine для поддержки поиска URL и отображения заархивированного контента . Инструменты JWAT , node-warc , WARCAT , warcio и warctools могут быть использованы для чтения и извлечения метаданных из файлов WARC .

Разрешение

Будет ли организация подчиняться стандарту исключений для роботов или запрашивать разрешение на архивирование у владельцев сайта, зависит от многих факторов — вида контента, масштабов веб-архивирования, правовой среды . Однако даже при обращении за разрешением только около 30—50 % владельцев сайтов откликаются на просьбу .

Как правило, правительственные организации, наделённые законным правом хранить публичные записи (например, Национальное управление архивов и документации (США) и Национальные архивы Великобритании), не нуждаются в разрешении на сканирование. Согласно французскому закону об авторском праве от 2006 года, Национальная библиотека Франции может игнорировать роботов при сканировании сайтов с национальными доменами . Другие организации, такие как «Архив Интернета», в своей работе используют принцип отказа — данные удаляются из коллекции по просьбам правообладателей, которые могут доказать авторские права, предоставив описание материала, контактные данные заявителя и подписанное заявление .

Метаданные

Веб-архивы обычно имеют иерархическую структуру — сеанс сканирования захватывает множество сайтов, каждый из которых ведёт на отдельную веб-страницу, содержащую видео, текст и файлы изображений. Для каждого из «уровней» генерируются метаданные .

Подход к созданию метаданных зависит от масштаба и ресурсов, которыми обладает организация. Так, крупные веб-архивы часто полагаются на автоматическое создание метаданных. Некоторые метаданные, включая время сбора, код состояния (например, ошибка 404 для не найденного или 303 для перенаправления), размер в байтах , URI или тип MIME (например, text/ HTML ), автоматически «захватываются» поисковыми роботами. Информация также может быть извлечена из метатегов HTML-страниц .

Небольшие веб-архивы могут генерировать метаданные вручную. Литературный архив Калифорнийского университета в Лос-Анджелесе использует подробные заметки, созданные персоналом в процессе сбора и анализа веб-страниц, для генерации метаданных . В веб-архиве Национального университета Тайваня действует трёхуровневая иерархическая классификация. Метаданные могут также могут быть созданы с помощью пользовательских тегов, комментариев или оценок .

Проблемы

Пользователи обращаются к веб-архивам по разным причинам — для проведения исследований, компиляции собственной базы данных или просмотра старых версий отдельных веб-ресурсов. Однако зачастую доступ к таким коллекциям осложнён отсутствием общего поиска по доступным базам данных и неудобным интерфейсом. Для доступа и обработки сохранённой информации часто требуются технические навыки работы со специализированными форматами файлов . Отдельные исследователи считают, что именно по этим причинам ссылки на веб-архивы по-прежнему редко встречаются в научных работах, а коллекции — не изучаются .

Коллекция веб-архива может оказаться неполной или предвзятой из-за невозможности заархивировать «закрытые» сайты и/или непрофессиональной разработки стратегий архивирования — например, когда архивируют только англоязычные порталы крупных западных стран. Несмотря на то, что часть архивов имеет юридическое право игнорировать стандарт исключений для роботов , коллекции остальных организаций существенно лимитированы при соблюдении стандарта .

Автоматическое веб-архивирование через использование поисковых роботов позволяет «захватить» большое количество информации , однако некоторые интерактивные элементы JavaScript сохранить невозможно и архивная версия теряет свою функциональность .

Примечания

↑ , pp. 85—111.
Veronique Greenwood. (англ.) . Yale Alumni Magazine (июнь 2020). Дата обращения: 9 декабря 2021. 15 октября 2021 года.
Dan Greene. (англ.) . Vox (21 апреля 2021). Дата обращения: 9 декабря 2021. 26 сентября 2021 года.
(англ.) . The Guardian (3 марта 2002). Дата обращения: 11 декабря 2021. 20 января 2013 года.
Veronique Greenwood. (англ.) . Yale Alumni Magazine (июнь 2020). Дата обращения: 27 сентября 2021. 15 октября 2021 года.
Lamont Wood. (англ.) . ComputerWorld (26 августа 2010). Дата обращения: 11 декабря 2021. 26 января 2021 года.
.
.
Adam Wernick. (англ.) . The World (1 января 2018). Дата обращения: 10 декабря 2021. 16 августа 2021 года.
(англ.) . ООН. Дата обращения: 12 декабря 2021. 23 августа 2021 года.
↑ , pp. 191—205.
↑ , pp. 1441—1443.
(англ.) . The Times of India (17 сентября 2020). Дата обращения: 27 сентября 2021. 8 сентября 2021 года.
Lauren Maffeo. (англ.) . The Guardian (29 мая 2015). Дата обращения: 27 ноября 2021. 19 ноября 2021 года.
Dave Smith. (англ.) . Business Insider (20 февраля 2015). Дата обращения: 28 ноября 2021. 19 ноября 2021 года.
Николай Удинцев. (англ.) . Look at Me (13 февраля 2015). Дата обращения: 28 ноября 2021. 19 ноября 2021 года.
, pp. 598—603.
, pp. 111—112.
↑ , pp. 1—256.
, pp. 581—597.
, pp. 29—43.
(англ.) . Вести (21 мая 2021). Дата обращения: 28 сентября 2021. 23 ноября 2021 года.
.
Mitchell Clark. (англ.) . The Verge (21 мая 2021). Дата обращения: 10 октября 2021. 20 июня 2021 года.
↑ .
Nick Bilton. (англ.) . The New York Times (7 сентября 2011). Дата обращения: 10 декабря 2021. 28 сентября 2021 года.
Matthew Gault. (англ.) . Vice (17 июля 2015). Дата обращения: 11 декабря 2021.
. BBC (18 декабря 2021). Дата обращения: 20 декабря 2021. 18 декабря 2021 года.
Тася Елфимова. . The Village (18 декабря 2021). Дата обращения: 19 декабря 2021. 18 декабря 2021 года.
, pp. 1—10.
, с. 12—16.
↑ , pp. 63—67.
(англ.) . European History Primary Sources. Дата обращения: 13 декабря 2021. 6 мая 2021 года.
↑ , pp. 1—17.
Mark Pesce. (англ.) . Cosmos (29 октября 2021). Дата обращения: 11 декабря 2021. 25 ноября 2021 года.
.
↑ , pp. 201—212.
Rory Carroll. (англ.) . The Guardian (26 апреля 2013). Дата обращения: 11 декабря 2021. 15 декабря 2021 года.
(англ.) . Wayback Machine. Дата обращения: 7 июня 2021.
↑ .
(англ.) . FundRz. Дата обращения: 18 декабря 2021.
(англ.) . GitHub. Дата обращения: 20 декабря 2021. 20 декабря 2021 года.
↑ (англ.) . archive.ph. Дата обращения: 10 декабря 2021. 27 октября 2021 года.
Salman Ravoof. (англ.) . Kinsta (3 ноября 2021). Дата обращения: 7 декабря 2021. 5 ноября 2021 года.
Jason Koebler. (англ.) . Vice (29 октября 2014). Дата обращения: 7 декабря 2021. 27 ноября 2021 года.
↑ Martin Brinkmann. (англ.) . G Hacks (22 апреля 2015). Дата обращения: 12 декабря 2021. 12 апреля 2019 года.
(англ.) . Web Page Archiving. Дата обращения: 10 декабря 2021. Архивировано из 22 сентября 2013 года.
(англ.) . Информационно-аналитический журнал Университетская Книга (21 сентября 2013). Дата обращения: 18 декабря 2021. 24 октября 2020 года.
(англ.) . Jeremy Norman's History of Information. Дата обращения: 10 декабря 2021.
(англ.) . NWA. Дата обращения: 11 декабря 2021. 26 апреля 2018 года.
(англ.) . Pandora. Дата обращения: 11 декабря 2021. 4 июня 2020 года.
, pp. 154—172.
George Nott. (англ.) . Computer World (11 марта 2019). Дата обращения: 10 декабря 2021. 24 ноября 2021 года.
↑ .
(англ.) . WikiCfP. Дата обращения: 15 декабря 2021. 27 апреля 2021 года.
(англ.) . International Internet Preservation Consortium. Дата обращения: 14 декабря 2021. 14 декабря 2021 года.
(англ.) . International Internet Preservation Consortium. Дата обращения: 13 декабря 2021. 16 декабря 2021 года.
(англ.) . Library of Congress. Дата обращения: 13 декабря 2021.
(англ.) . Bereichbibliother Ostaasien. Дата обращения: 13 декабря 2021. 17 октября 2021 года.
Steve Bailey, Dave Thompson. (англ.) . D-lib Magazine (2006). Дата обращения: 18 декабря 2021. 23 ноября 2021 года.
↑ , pp. 1—15.
Johan Steenbakkers. (англ.) . European Library Automation Group. Дата обращения: 13 декабря 2021. 29 декабря 2021 года.
, pp. 211—216.
Duncan Jefferies. . The Guardian (9 марта 2012). Дата обращения: 11 декабря 2021. 10 июня 2021 года.
, pp. 1—251.
, p. 276.
↑ .
, с. 95—102.
, pp. 112—126.
↑ João Miranda. (англ.) . Web Ist UTL. Дата обращения: 17 декабря 2021. 29 декабря 2021 года.
↑ .
.
↑ .
↑ (англ.) . Digital Preservation Online. Дата обращения: 17 декабря 2021. 14 сентября 2021 года.
, pp. 1—15.
Justin Kulesza. (англ.) . Atomic Object. Дата обращения: 14 декабря 2021. 23 июня 2016 года.
(англ.) . GitHub. Дата обращения: 15 декабря 2021. 23 декабря 2021 года.
, pp. 107—128.
, с. 52.
(англ.) . GitHub. Дата обращения: 16 декабря 2021. 10 декабря 2021 года.
. IXBT.com. Дата обращения: 17 декабря 2021. 2 августа 2019 года.
(англ.) . International Internet Preservation Consortium. Дата обращения: 16 декабря 2021. 16 декабря 2021 года.
, pp. 17—24.
↑ , pp. 1-256.
↑ .
, pp. 181—196.
, pp. 89—106.
, pp. 45—61.
, p. 49.
, pp. 145—168.
Kalev Leetaru. (англ.) . Forbes (7 мая 2019). Дата обращения: 11 декабря 2021. 29 декабря 2021 года.
Kalev Leetaru. . Forbes (24 февраля 2017). Дата обращения: 11 декабря 2021. 29 декабря 2021 года.

Литература

Adoghe A., Onasoga K., Dike D., Ajayi O. Web-Archiving: techniques, challenges, and solutions (англ.) . — 2013. — Vol. 5 , iss. 3 . — P. 598—603 .
Alam S. (англ.) . — 2020.
Ayala B. When expectations meet reality: common misconceptions about web archives and challenges for scholars (англ.) // International Journal of Digital Humanities. — 2021. — Iss. 2 . — P. 89—106 .
Berčič B. Protection of Personal Data and Copyrighted Material on the Web: The Cases of Google and Internet Archive (англ.) // Communications Technology Law. — 2005. — Vol. 14 , iss. 1 . — P. 17—24 . — doi : .
Brown A. Archiving websites a practical guide for information management professionals (англ.) . — Facet publishing. — 2006. — 256 p. — ISBN 978-1-85604-553-7 .
Brügger N., Schroeder R. Live versus archive: Comparing a web archive to a population of web pages (англ.) . — 2017. — P. 45—61 . — doi : .
Brügger N. Digital humanities and web archives: Possible new paths for combining datasets (англ.) // International Journal of Digital Humanities. — 2021. — Iss. 2 . — P. 145—168 .
Broussard M. Archiving Data Journalism (англ.) // Yhe Data Journalism Handbook. — 2021. — P. 274—278 . — doi : .
Brunelle J., Nelson M. ApacheBench Tool (англ.) // ArXiv.org. — 2012.
Costa M., Gomes D., Silva M. The evolution of web archiving (англ.) // Int J Digit Libr. — 2017. — Iss. 18 . — P. 191—205 . — doi : .
Dooley J.M., Farrell K., Kim T., Venlet J. Developing Web Archiving Metadata Best Practices to Meet User Needs (англ.) // Journal of Western Archives. — 2017. — Vol. 8 , iss. 2 .
Hakala J. The NEWLIB harvester (англ.) // Zeitschrift für Bibliothekswesen und Bibliographie. — 2001. — Vol. 48 , iss. 3 . — P. 211—216 .
Giaretta D. Avoiding a Digital Dark Age for data: why publishers shoudl care about digital preservation (англ.) // Learned Publishing. — 2011. — P. 1—18 .
Kimpton M., Ubois J. Year-by-Year: From an Archive of the Internet to an Archive on the Internet // Web Archiving. — 2006. — С. 201—212 .
Masanes J. Web Archiving (англ.) . — Springer. — 1998. — P. 1—234. — ISBN 3-540-23338-5 .
Mohr G., Stack M., Ranitovic I., Avery D., Kimpton M. An Introduction to Heritrix. An open source archival quality web crawler // 4th International Web Archiving Workshop. — 2004. — С. 1—15 .
Niu J. An Overview of Web Archiving (англ.) // School of Information Faculty Publications. — 2012. — P. 1—13 . — doi : .
Ogden J., Maemura E. ‘Go fish’: Conceptualising the challenges of engaging national web archives for digital research (англ.) // International Journal of Digital Humanities. — Iss. 2 . — P. 43—63 . — doi : .
Olson J. Chapter 14 - The Archive Data Store (англ.) // Database Archive. — 2009. — P. 181—196 . — doi : .
Panos P. (англ.) // Journal of Social Work Education. — 2003. — Vol. 39 , iss. 2 . — P. 343—347 . — doi : .
Patel K., Phillips M., Caragea C., Fox N. (англ.) // arXiv. — 2020.
Pennock M. Web-Archiving (англ.) . — DPC Technology Watch Report 13-01 March 2013. — 2013. — doi : .
Perkel, J. The trouble with reference rot. (англ.) // Nature. — 2015. — Iss. 521 . — P. 111—112 . — doi : .
Pretoro E., Geeraert F., Soyez S. Behind the scenes of web archiving metadata of harvested websites (англ.) // Trust and Understanding: the value of metadata in a digitally joined-up world. — 2013. — P. 63—74 .
Rhodes S. Breaking Down Link Rot: The Chesapeake Project Legal Information Archive's Examination of URL Stability (англ.) // Law Library Journal. — 2010. — Vol. 102 , iss. 4 . — P. 581—597 .
Rockwell G., Tchoh B. (англ.) // CSDH-SCHN 2020. — 2020. — doi : . )
Rogers R. Periodizing Web Archiving: Biographical, Event-Based, National and Autobiographical Traditions (англ.) // The SAGE Handbook of Web History. — 2019. — P. 42—57 .
Rumianek M. (англ.) // D-Lib Magazine. — 2013. — Vol. 19 , iss. 1/2 . — doi : .
Slania H. Online Art Ephemera: Web Archiving at the National Museum of Women in the Arts (англ.) // Art Documentation: Journal of the Art Libraries Society of North America. — 2013. — Vol. 32 , iss. 1 . — P. 112—126 .
Toyoda M., Kitsuregawa M. {{{заглавие}}} (англ.) // Invited Paper. — 2012. — doi : .
Eysenbach G., Trudel M. Going, Going, Still There: Using the WebCite Service to Permanently Archive Cited Web Pages // J Med Internet Resources. — 2005. — doi : .
Zittrain J., Bowers J., Stanton C. (англ.) // Library Innovation Lab. — 2021.
Webb C. Because It Belongs to All of Us: National Arrangements for Digital Preservation in Australian Libraries (англ.) // Australian Academic & Research Libraries. — 2000. — P. 154—172 . — doi : .
Vlassenroot E., Chambers S., Mechant P. Web archives as a data resource for digital scholars (англ.) // International Journal of Digital Humanities. — 2019. — Vol. 1 , iss. 85 . — P. 85—111 . — doi : .
Vlassenroot E.,Chambers S., Lieber S., Michel A., Geeraert F., Pranger J., Birkholz J. Web-archiving and social media: an exploratory analysis (англ.) // International Journal of Digital Humanities. — 2021. — Vol. 2 . — P. 107—128 .
White J. Link Rot, Reference Rot, and Link Resolves (англ.) // New Top Technologies Every Librarian Needs to Know. — 2019. — P. 29—43 .
Балацкая Н.М., Мартиросова М.Б. // Библиосфера. — 2021. — № 3 . — С. 12—17 .
Поврозник Г.Г. Веб-архивы в реконструкции истории виртуальных музеев: потенциал и ограничения // Вестник Пермского Университета. — 2020. — Т. 51 , вып. 4 . — С. 95—102 .
Редькина Н.С. Мировые тенденции развития библиотек. Оптимизм vs пессимизм (по материалам зарубежной литературы) // Библиосфера. — 2019. — Вып. 1 . — С. 49—58 .

[_1af9321b3463ddae-1] , pp. 85—111.

[Greenwood-2] Veronique Greenwood. (англ.) . Yale Alumni Magazine (июнь 2020). Дата обращения: 9 декабря 2021. 15 октября 2021 года.

[3] Dan Greene. (англ.) . Vox (21 апреля 2021). Дата обращения: 9 декабря 2021. 26 сентября 2021 года.

[Guardian-4] (англ.) . The Guardian (3 марта 2002). Дата обращения: 11 декабря 2021. 20 января 2013 года.

[5] Veronique Greenwood. (англ.) . Yale Alumni Magazine (июнь 2020). Дата обращения: 27 сентября 2021. 15 октября 2021 года.

[6] Lamont Wood. (англ.) . ComputerWorld (26 августа 2010). Дата обращения: 11 декабря 2021. 26 января 2021 года.

[_c9c4e67ea5e301e4-7] .

[_d4f4c550b5b2513b-8] .

[9] Adam Wernick. (англ.) . The World (1 января 2018). Дата обращения: 10 декабря 2021. 16 августа 2021 года.

[10] (англ.) . ООН. Дата обращения: 12 декабря 2021. 23 августа 2021 года.

[_70cbe5643befe9c1-11] , pp. 191—205.

[_786e6b2df946817c-12] , pp. 1441—1443.

[13] (англ.) . The Times of India (17 сентября 2020). Дата обращения: 27 сентября 2021. 8 сентября 2021 года.

[14] Lauren Maffeo. (англ.) . The Guardian (29 мая 2015). Дата обращения: 27 ноября 2021. 19 ноября 2021 года.

[15] Dave Smith. (англ.) . Business Insider (20 февраля 2015). Дата обращения: 28 ноября 2021. 19 ноября 2021 года.

[16] Николай Удинцев. (англ.) . Look at Me (13 февраля 2015). Дата обращения: 28 ноября 2021. 19 ноября 2021 года.

[_7c7f605111bb48c4-17] , pp. 598—603.

[_62cb033517be9971-18] , pp. 111—112.

[_267cf0f34ec069a9-19] , pp. 1—256.

[_403b7017ae6a1f98-20] , pp. 581—597.

[_e9a955c73c382962-21] , pp. 29—43.

[22] (англ.) . Вести (21 мая 2021). Дата обращения: 28 сентября 2021. 23 ноября 2021 года.

[_1c6d8b8e0344231c-23] .

[Clark-24] Mitchell Clark. (англ.) . The Verge (21 мая 2021). Дата обращения: 10 октября 2021. 20 июня 2021 года.

[_518c0a27b622379b-25] .

[26] Nick Bilton. (англ.) . The New York Times (7 сентября 2011). Дата обращения: 10 декабря 2021. 28 сентября 2021 года.

[27] Matthew Gault. (англ.) . Vice (17 июля 2015). Дата обращения: 11 декабря 2021.

[28] . BBC (18 декабря 2021). Дата обращения: 20 декабря 2021. 18 декабря 2021 года.

[29] Тася Елфимова. . The Village (18 декабря 2021). Дата обращения: 19 декабря 2021. 18 декабря 2021 года.

[_b2b5c478039a2b45-30] , pp. 1—10.

[_6c43456b8615c05d-31] , с. 12—16.

[_1c7f8103ef0b49ae-32] , pp. 63—67.

[33] (англ.) . European History Primary Sources. Дата обращения: 13 декабря 2021. 6 мая 2021 года.

[_f25571371e08bb05-34] , pp. 1—17.

[35] Mark Pesce. (англ.) . Cosmos (29 октября 2021). Дата обращения: 11 декабря 2021. 25 ноября 2021 года.

[_66742cd590555f91-36] .

[_269d64d202d69c30-37] , pp. 201—212.

[38] Rory Carroll. (англ.) . The Guardian (26 апреля 2013). Дата обращения: 11 декабря 2021. 15 декабря 2021 года.

[39] (англ.) . Wayback Machine. Дата обращения: 7 июня 2021.

[_9aa3ffb5696c1f5c-40] .

[41] (англ.) . FundRz. Дата обращения: 18 декабря 2021.

[42] (англ.) . GitHub. Дата обращения: 20 декабря 2021. 20 декабря 2021 года.

[FAQ-43] (англ.) . archive.ph. Дата обращения: 10 декабря 2021. 27 октября 2021 года.

[44] Salman Ravoof. (англ.) . Kinsta (3 ноября 2021). Дата обращения: 7 декабря 2021. 5 ноября 2021 года.

[45] Jason Koebler. (англ.) . Vice (29 октября 2014). Дата обращения: 7 декабря 2021. 27 ноября 2021 года.

[GHacks-46] Martin Brinkmann. (англ.) . G Hacks (22 апреля 2015). Дата обращения: 12 декабря 2021. 12 апреля 2019 года.

[47] (англ.) . Web Page Archiving. Дата обращения: 10 декабря 2021. Архивировано из 22 сентября 2013 года.

[48] (англ.) . Информационно-аналитический журнал Университетская Книга (21 сентября 2013). Дата обращения: 18 декабря 2021. 24 октября 2020 года.

[49] (англ.) . Jeremy Norman's History of Information. Дата обращения: 10 декабря 2021.

[50] (англ.) . NWA. Дата обращения: 11 декабря 2021. 26 апреля 2018 года.

[51] (англ.) . Pandora. Дата обращения: 11 декабря 2021. 4 июня 2020 года.

[_7ac041a6dbf6666b-52] , pp. 154—172.

[53] George Nott. (англ.) . Computer World (11 марта 2019). Дата обращения: 10 декабря 2021. 24 ноября 2021 года.

[_d6d87c81d9935f14-54] .

[55] (англ.) . WikiCfP. Дата обращения: 15 декабря 2021. 27 апреля 2021 года.

[56] (англ.) . International Internet Preservation Consortium. Дата обращения: 14 декабря 2021. 14 декабря 2021 года.

[57] (англ.) . International Internet Preservation Consortium. Дата обращения: 13 декабря 2021. 16 декабря 2021 года.

[58] (англ.) . Library of Congress. Дата обращения: 13 декабря 2021.

[59] (англ.) . Bereichbibliother Ostaasien. Дата обращения: 13 декабря 2021. 17 октября 2021 года.

[60] Steve Bailey, Dave Thompson. (англ.) . D-lib Magazine (2006). Дата обращения: 18 декабря 2021. 23 ноября 2021 года.

[_61dfe7f3703b8810-61] , pp. 1—15.

[62] Johan Steenbakkers. (англ.) . European Library Automation Group. Дата обращения: 13 декабря 2021. 29 декабря 2021 года.

[_36dd738c950d322f-63] , pp. 211—216.

[64] Duncan Jefferies. . The Guardian (9 марта 2012). Дата обращения: 11 декабря 2021. 10 июня 2021 года.

[_dd3e7d893e1d35b9-65] , pp. 1—251.

[_25c18e9cbe5f2b06-66] , p. 276.

[_752e5aa2ce771946-67] .

[_747db7d108ad47c0-68] , с. 95—102.

[_ec3b0f7964301eb0-69] , pp. 112—126.

[Miranda-70] João Miranda. (англ.) . Web Ist UTL. Дата обращения: 17 декабря 2021. 29 декабря 2021 года.

[_12a34e58bcd946c3-71] .

[_3e17d130be5b918b-72] .

[_adaedc2d349798d2-73] .

[Preserving-74] (англ.) . Digital Preservation Online. Дата обращения: 17 декабря 2021. 14 сентября 2021 года.

[_98e531ff83396dfe-75] , pp. 1—15.

[76] Justin Kulesza. (англ.) . Atomic Object. Дата обращения: 14 декабря 2021. 23 июня 2016 года.

[77] (англ.) . GitHub. Дата обращения: 15 декабря 2021. 23 декабря 2021 года.

[_a413ae6524e27f6b-78] , pp. 107—128.

[_74ce8c4a850a2df3-79] , с. 52.

[80] (англ.) . GitHub. Дата обращения: 16 декабря 2021. 10 декабря 2021 года.

[81] . IXBT.com. Дата обращения: 17 декабря 2021. 2 августа 2019 года.

[82] (англ.) . International Internet Preservation Consortium. Дата обращения: 16 декабря 2021. 16 декабря 2021 года.

[_9d1c8bfb84872dc0-83] , pp. 17—24.

[_d2a4447484a4e8f8-84] , pp. 1-256.

[_bcd08e996b8b68db-85] .

[_7b25d682eaf5a451-86] , pp. 181—196.

[_56594f07281dda6c-87] , pp. 89—106.

[_512b31baaab72319-88] , pp. 45—61.

[_3574ad454c23eb2c-89] , p. 49.

[_fc799f303414b104-90] , pp. 145—168.

[91] Kalev Leetaru. (англ.) . Forbes (7 мая 2019). Дата обращения: 11 декабря 2021. 29 декабря 2021 года.

[92] Kalev Leetaru. . Forbes (24 февраля 2017). Дата обращения: 11 декабря 2021. 29 декабря 2021 года.

Interested Article - Архивирование веб-сайтов

Содержание

Определение

Предпосылки

Развитие

Организации

«Архив Интернета»

WebCite

Archive.today

Национальные библиотеки

Коллаборации

Отбор источников

Сбор данных

Статические сайты

Динамические сайты

Архивация социальных сетей

Инструменты

Разрешение

Метаданные

Проблемы

Примечания

Литература

Критерии значимости веб-сайтов

Индекс цитирования веб-сайтов

Same as Архивирование веб-сайтов

Критерии значимости веб-сайтов

Критерии значимости веб-сайтов

Критерии значимости веб-сайтов

Критерии значимости веб-сайтов

Критерии значимости веб-сайтов

Критерии значимости веб-сайтов

Критерии значимости веб-сайтов

Индекс цитирования веб-сайтов

The title for the last searches