Interested Article - Архив Интернета

Архи́в Интерне́та (сокр. АИ ; англ. Internet Archive ) — некоммерческая организация , основанная в 1996 году в Сан-Франциско американским программистом Брюстером Кейлом . Главной заявленной целью Архива является предоставление всеобщего доступа к накопленной в Интернете информации. Коллекция АИ состоит из множества подколлекций архивированных веб-сайтов, оцифрованных книг, аудио- и видеофайлов, игр, программного обеспечения.

К крупнейшим проектам Архива относят запущенный в 2001 году сервис Wayback Machine , который архивирует и предоставляет доступ к бо́льшей части «открытого» интернета. Пользователи Wayback Machine могут отследить происходящие на выбранных сайтах изменения и сравнивать разные версии правок . Другой крупной инициативой АИ является Open Library — открытая онлайн-библиотека, через которую пользователи могут брать на 2 недели оцифрованные версии книг . Также по инициативе Архива был создан сервис Archive It — служба веб-архивирования, помогающая организациям и частным лицам собирать, создавать и сохранять коллекции цифрового контента. На начало мая 2022 года коллекция Архива Интернета состояла из более чем 35 млн книг, 7,9 млн фильмов, видео и телепередач, 842 тыс. программ, 14 млн аудиофайлов, 4 млн изображений, 2,4 млн , 237 тыс. концертов и более 682 млрд веб-страниц в Wayback Machine .

Для долгосрочного хранения данных «Архив» использует систему зеркальных сайтов , расположенных в географически отдалённых друг от друга местах . Копии Wayback Machine существуют в Сан-Франциско , Ричмонде , Александрии , Амстердаме . Для эффективного хранения файлов «Архив» использует формат файла ( WARC ), позволяющий сохранять файлы без потерь при архивировании .

История

Создание

Главную роль в создании «Архива Интернета» сыграл выпускник Массачусетского технологического института Брюстер Кейл . Во время учёбы Кейл и его одногруппники имели доступ к прототипу интернета — сети ARPANET . Однажды они решили посмотреть, что произойдёт, если поместить отдельные сообщества (на тот момент — небольшие списки рассылок и группы Usenet ) в общее виртуальное пространство — единый список рассылки. Как позже вспоминал программист: «Это был хаос, анархия и дезинформация — это было ужасно!». Однако именно тогда Кейл осознал потенциал сети в предоставлении людям из разных учреждений возможности общаться друг с другом без задержек и трений. Благодаря экспериментам с ARPANET у программиста появилась идея создать первое цифровое хранилище .

Начиная с 1980-х годов Кейл участвовал в создании компании по производству мини-суперкомпьютеров Thinking Machines Corporation , а в 1989 году программист основал первую сетевую информационную поисковую систему WAIS и одноимённую компанию, которую он продал в 1995 году America Online за $15 млн. Впоследствии WAIS стала прообразом современных поисковых систем и одной из первых программ, индексирующих большое количество информации. Одновременно с этим Брюстер переехал из Бостона в Сан-Франциско — город, который в то время только начал становиться центром Кремниевой долины .

В этот период Кейл заинтересовался вопросом архивирования всего интернета. Для этих целей он создал в 1996 году две взаимосвязанные организации — НКО Internet Archive и коммерческую систему веб-архивирования Alexa Internet , которая была создана совместно с и получила название в честь Александрийской библиотеки . Задачей Alexa Internet стало финансирование некоммерческого проекта за счёт средств, вырученных от веб-архивирования . Помимо этого, все архивированные через Alexa данные также автоматически сохранялись в коллекцию. Начальные инвестиции в проект Alexa Internet составили около $1 млн. Уже спустя год после создания «Архив Интернета» и Alexa совместно разработали браузерный плагин — программа автоматически определяла и сохраняла «ценные» веб-страницы , ранжируя их по количеству посещений и перекрёстных ссылок и кликов . Цикл создания и архивирования страниц составлял восемь недель, после чего процесс сканирования запускали заново. Встроенная в браузер панель инструментов Alexa помогала пользователям в навигации по интернету и одновременно занималась его каталогизацией, собирая метаданные о том, как страницы связаны друг с другом. Первое время для хранения данных использовали магнитную ленту — несмотря на то, что только появившиеся дисковые хранилища выигрывали в вопросе экономии пространства и удобства, ленты были примерно в 10 раз дешевле .

Целью «Архива Интернета» стала борьба с вымиранием ссылок — большинство создаваемых веб-страниц не были долговечными. Все собранные данные сохранялись в коллекцию «Архива Интернета» . Так, 72 % опубликованных в 1998 году ссылок стали «мёртвыми» к 2021 году . Чтобы продемонстрировать важность сканирования и сохранения копий веб-страниц, «Архив» инициировал совместный проект со Смитсоновским институтом в Вашингтоне по сбору скриншотов веб-сайтов всех кандидатов в президенты 1996 года . Впоследствии эти данные были включены в архив института о партиях и кандидатах, собирающий данные по политическим партиям США и всем кандидатам в президенты .

1997—1999-й год

В 1998 году Alexa Internet передала Библиотеке Конгресса 2 терабайта заархивированного за два года контента или 500 000 веб-сайтов. Тогда Брюстер Кейл упомянул, что надеется вдохновить Библиотеку Конгресса и другие исследовательские библиотеки сохранять знания не только в печатном, но и в онлайновом виде . В 1998—1999 годах «Архив Интернета» и Alexa заключили контракт с Microsoft и Netscape Communications на включение своего программного обеспечения в браузеры Internet Explorer и Netscape Navigator . Соглашения позволили значительно расширить инфраструктуру «Архива» — Alexa была внедрена на 90 % персональных компьютеров того времени. К концу 1998 года руководство «Архива» решило перейти с магнитной ленты на жёсткие диски . В 1999 году Брюс Кейл получил предложение от компании Amazon продать ей коммерческий успешный Alexa Internet за $250 млн, на что создатель ответил согласием. После покупки Alexa по-прежнему продолжила отправку данных в «Архив Интернета». В этом же году Энди Джуэл создал новый веб-краулер , позволяющий параллельно совершать сразу несколько сканирований и сохранять результаты в формате ARC . В этом же году НКО внедрило разработанный Джуэлом новый краулер, который позволил собирать не только веб-страницы, но и другие виды данных, например, анимацию. Благодаря партнёрству с из был реализован проект по оцифровке 1000 фильмов (общей стоимостью в $ 160 000 ) и по архивированию телевизионных новостных трансляций . В 2005 году Библиотека Конгресса приобрела Prelinger Archives , доступ к материалам по-прежнему осуществляется через «Архив» .

2000—2010 годы

С 2009 года главный офис «Архива» располагается в бывшей

В период за 2000—2001 год размер архива увеличился втрое и составил около 40 терабайт . Одновременно с этим перед руководством встал вопрос о предоставлении доступа к собранной коллекции. Отдельные данные были доступны широкой публике, но требовали от пользователя знания Unix . Чтобы открыть доступ к информации, программисты Alexa создали Wayback Machine — онлайн-сервис, через который пользователи могли осуществить поиск по вводимому URL -адресу. Сервис был запущен 24 октября 2001 года и предлагал доступ к более чем 10 млрд заархивированных веб-страниц и 100 ТБ данных. В то время данные хранились на серверах Hewlett-Packard и uslab.com под управлением операционных систем FreeBSD и Linux . На каждом сервере было около 512 МБ оперативной памяти и чуть более 300 ГБ на жёстких дисках . К декабрю 2014 года руководство Wayback Machine сообщило, что сохранило 435 млрд веб-страниц по всему миру . С технической точки зрения WM не является архивом, а скорее общедоступным интерфейсом к ограниченному подмножеству всех хранилищ .

В связи с президентскими выборами в США 2000 года «Архив Интернета» инициировал совместный с Библиотекой Конгресса проект по сбору информации о политических кампаниях кандидатов . Другим крупным проектом того периода стал «Архив 11 сентября», посвященный событиям 11 сентября 2001 года . Работая с Библиотекой Конгресса, «Архив» собрал изображения с более 30 000 избранных веб-сайтов в период по 1 декабря 2001 года включительно, а также сотни часов телетрансляций .

В 2002 году «Архив» реализовал сразу несколько крупных проектов, значительно расширивших его коллекцию. Первым и самым крупным из них стал зеркальный сайт библиотеки в городе Александрия . Всего в Египет было отправлено серверов с более чем 100 ТБ данных, общей стоимостью около $5 млн . Также «Архив Интернета» передал в Библиотеку Александрина 10 млрд веб-страниц, собранных с 1996 по 2001 год, 2000 часов записей передач египетского и американского телевидения и 1000 старых фильмов .

Летом 2002 года «Архив Интернета» сотрудничал с центром Карнеги-Меллона в проекте « » (MBP) по оцифровке более одного миллиона книг и размещению их для бесплатного чтения в интернете . Проект осуществляли при полноправном участии других американских университетов и цифровых собраний Индии , Китая , Египта . Деньги на MBP выделили Национальный научный фонд США ($3,63 млн), правительство Индии (25 млн), а также Министерство образования КНР (8,46 млн). В свою очередь, «Архив Интернета» предоставил оборудование, персонал и денежные средства для оцифровки необходимых документов. Впоследствии собранная коллекция была доступна через зеркальные сайты Индии, Китая, порталов Университета Карнеги-Меллона и «Архива Интернета» . В декабре 2004 года АИ объявил о новом сотрудничестве с несколькими международными библиотеками по помещению оцифрованных книг в архивы с открытым доступом . Вторым крупным проектом этого периода стал «‎ Букбомбиль »‎ — передвижная библиотека, по желанию печатающая работы из коллекции архива. Букмобиль передвигался по Сан-Франциско и, по заказу пользователей, мог печатать около 20 страниц в минуту, после чего волонтёры проекта собирали их вручную, помещали в обложку и переплетали с помощью нагревающего клей устройства, нанесённого на корешок страниц. Для обрезки книги использовали гильотинный резак для бумаги .

В 2003 году «Архив» продолжил сотрудничать с национальными библиотеками. В июле АИ принял участие в создании — группы из 12 национальных библиотек США, согласившихся объединиться для разработки стандартов, инструментов и практик по приобретению, сохранению и созданию доступного знания и информации из интернета. Для достижения этой цели консорциум собирает интернет-контент со всего мира, таким образом, чтобы его можно было заархивировать и защитить, а также содействует разработке и использованию общих инструментов, методов и способов поощрения развития национальных библиотек. В этом же году «Архив Интернета» запустил — веб-краулер с открытым исходным кодом на основе Java , который впоследствии был внедрён многими учреждениями по всему миру .

В 2004 году «Архив Интернета» начал перенос данных на оборудование третьего поколения — . PetaBox основан на операционной системе Linux и представляет RAID -хранилище по цене примерно $2000 за терабайт или $2 млн за петабайт . Первым новое оборудование установили в Амстердамском отделении «Архива» — EU Web archive, которое собирает документы в странах Европейского союза и также служит зеркалом основной коллекции .

«Архив Интернета» ставит перед собой цель предоставить универсальный доступ ко всему человеческому знанию и стать масштабной интернет-библиотекой. В июне 2007 года штат Калифорния присвоил «Архиву Интернета» статус библиотеки, таким образом сделав его доступным для федерального финансирования и включив его в сеть организаций, занимающихся сохранением открытого доступа к информации .

В начале 2000-х годов руководство Архива выкупило старую христианскую церковь в Сан-Франциско и переоборудовало её под библиотеку . На 2009-й в организации было задействовано меньше пяти сотрудников, занятых эксплуатацией и техническим обслуживанием сайтов .

Офис «Архива Интернета» в Сан-Франциско

2010—2020-е

К 2012 году коллекция «Архива» увеличилась до 10 петабайт, с более чем 1,5 млн аудиофайлов и более миллиона видео в открытом доступе . Уже к 2014-му «Архив» обслуживал от двух до трёх млн посетителей в день, а коллекция составляла более 7 млн текстов, 2,1 млн аудиозаписей и 1,8 млн видео . В 2016 году «Архив» отпраздновал 20-летие со дня основания. К этому моменту в коллекции архива было 370 млн веб-сайтов и 273 млрд веб-страниц .

В 2013 году в офисе «Архива» произошёл пожар, уничтоживший часть оборудования, однако коллекция не пострадала . В этом же году, в ответ на разоблачения Эдварда Сноудена Агентства национальной безопасности , «Архив Интернета» ввёл шифрование веб-трафика читателей .

После победы Дональда Трампа на президентских выборах США 2016 года «Архив» принял решение создать копию своей коллекции в Канаде на тот случай, если Трамп решит ужесточить закон о цензуре или закон о клевете — Брюстер Кейл в своём блоге призвал сторонников финансово помочь в закупке необходимого оборудования, поскольку переезд будет стоить несколько миллионов долларов .

В 2019 году Google заявил, что вскоре удалит информацию закрывшейся социальной сети Google+ , однако «Архив Интернета» и Archive Team подписали соглашение о сохранении публичных постов на своих платформах — только за первые четыре недели архивации было собрано 1,56 петабайта данных .

В 2018—2019 годах «Архив» осуществил ряд совместных проектов с Википедией . В 2018 году «Архив» заменил ряд мёртвых ссылок в энциклопедии на те, которые уже были архивированы в Wayback Machine — специальный бот вычислял мёртвые ссылки, впоследствии копируя и обновляя их, ссылаясь на архивированные копии. За первый год проекта было восстановлена работоспособность 9 млн ссылок . В 2019 году «Архив» инициировал проект по улучшению работы Википедии — портал предоставлял предпросмотр книг, на которые ссылались в статьях. Для этого пользователи могли кликнуть на название книги и посмотреть двухстраничный материал. В первый год существования сервиса «Архив» превратил 130 000 ссылок в статьях энциклопедии в прямые ссылки на 50 000 книг, которые организация отсканировала и сделала доступными для широкой публики. В конечном итоге АИ надеется позволить пользователям просматривать и брать взаймы все книги, цитируемые Википедией . Чтобы сервис корректно отображал книгу, редакторам энциклопедии необходимо правильно оформлять сноски, с указанием номеров страниц .

В 2020 году «Архив Интернета» запустил кооперацию с Brave — теперь браузер может автоматически определять недоступность веб-страницы и взамен предлагать резервную копию через сервис Wayback Machine . Функция доступна для ошибок: 404 , 408, 410, 451, 500, 502, 503, 504, 509, 520, 521, 523, 524, 525 и 526 . В этом же году была объявлена кооперация с компанией Cloudflare , предлагающей функцию Always On, которая кэширует статические версии сайтов. Партнёрство позволило Wayback Machine находить ещё больше веб-сайтов для сканирования .

Пандемия COVID-19 и борьба с дезинформацией

«Архив Интернета» активно выступает за борьбу с дезинформацией . В 2019 году организация вместе с , Фондом Викимедиа , Samuelson Law, Technology and Public Policy Clinic провели конференцию для обмена опытом по практикам борьбы с заведомо ложной информацией . С началом пандемии COVID-19 в марте 2020 года сторонники конспиративных теорий использовали сохранённые порталом скриншоты для распространения ложной информации о коронавирусе . Например, в Medium была опубликована статья, в которой утверждалось, что от COVID-19 в Китае скончалось 21 млн человек. После того как эту статью начали широко распространять в Facebook , социальная сеть заблокировала ссылку. Однако статья сохранилась в «Архиве» и пользователи начали распространять её через Wayback Machine . В качестве контрмер в ноябре 2020 года «Архив Интернета» внедрил в Wayback Machine инструменты проверки информации на достоверность. При открытии заархивированной версии сайта Wayback Machine предоставляет пользователям сведения о причине её удаления в виде жёлтого баннера вверху экрана. При наличии подозрений, что веб-страница задействована в кампании по дезинформации, Wayback Machine предоставляет данные об организации, проводившей проверку на достоверность, а также ссылку на её отчёт . Сервис проверки фактов позволяет пользователям лучше понять причины удаления или изменения определённых страниц в какой-то момент. В число участников проверки фактов, представляемых на Wayback Machine, входят , , Graphika, Stanford Internet Observatory и другие. «Архив Интернета» объяснил причины добавления проверки фактов на эти страницы, заявив: «Мы пытаемся сохранить нашу цифровую историю, но признаём проблемы, связанные с предоставлением доступа к ложной и вводящей в заблуждение информации, поступающей из разных источников» .

Хранение

Во второй половине 1990-х годов решения для хранения данных были дорогостоящими. Для решения этой проблемы «Архив Интернета» в первом поколении инфраструктуры использовал магнитные ленты. В 2004 году «Архив» разработал недорогую и мощную систему хранения больших объёмов данных — PetaBox, вмещающую один петабайт или миллион гигабайт данных . Для долгосрочного хранения «Архив» использует систему зеркальных сайтов, расположенных в географически отдалённых друг от друга местах . Копии Wayback Machine существуют в Сан-Франциско , Ричмонде , Александрии , Амстердаме . Файлы сохраняются в формате ( ARC ). Каждый документ формата ARC размером около 100 мб и содержит несколько файлов, полученных во время сканирования. Каждый вложенный элемент содержит метаданных о файле и его поиске: имя файла (его URL), его размер, тип содержимого, дату и время извлечения и название организации, которая его получила . Из ценовых соображений «Архив» хранит данные на дисках ATA , расположенных в , вмещающих четыре диска, из которых один является загрузочным диском ОС Linux, а другие хранят данные настроенные под JBOD . В каждой стойке действуют 40 узлов хранения. В конце 2000-х только кластер Сан-Франциско вмещал около 36 стоек .

Веб-архивирование

Сообщение о том, что поисковый робот сервиса Wayback Machine не может сканировать сайт и сохранить материалы сайта в Архиве Интернета из-за содержимого файла robots.txt, запрещающего сканирование.

Коллекция Архива состоит из множества подколлекций, созданных различными организациями, каждая из которых имеет разный подход к веб-архивированию. Некоторые данные напрямую управляются «Архивом», а другие — многочисленными партнёрами организации . Первые годы основным источником получения регулярных данных был веб-краулер Alexa Internet. Однако с увеличением объёма обрабатываемого трафика руководство НКО осознало необходимость внедрения масштабного и легко настраиваемого поискового робота. Но существовавшие на рынке программы не обладали достаточной мощностью и возможностями для широкого и глубокого сканирования интернета. Принципиальным моментом была открытость программного обеспечения , что способствовало бы развитию кооперации между учреждениями, заинтересованными в архивировании интернета. В первой половине 2003 года «Архив» начал работу над разработкой нового поискового робота с открытым исходным кодом под названием . Краулер был написан на основе Java , в его разработке принимали участие Международный консорциум по сохранению Интернета и другие партнёрские библиотеки и учреждения. К Heritrix выдвигались те же требования, что и к краулеру Alexa Internet — робот должен подчиняться всем инструкциям по сканированию, заложенным в файл robots.txt сайта, и избегать агрессивного архивирования, которое может затруднить работу портала. Помимо этого, все захваченные сканером файлы должны объединяться в более крупные файлы для простоты управления и доступа. Сканер начинает фиксировать страницы, начиная с уже известных URL-адресов и далее передвигается по ссылкам внутри каждого сайта . Робот анализирует и переходит по встроенным ссылкам и затем добавляет все URL-адреса в список файлов для извлечения. Затем он повторяет этот процесс со следующими ссылками и проверяет, чтобы все сохранённые сайты были «захвачены» . Heritrix обладает рядом ограничений — он не может сканировать глубокую сеть или какие-либо материалы в базах данных или на страницах, требующих аутентификацию для доступа. Робот также не будет сканировать защищённые паролем сайты и будет подчиняться исключениям, описанным в robot.txt. Также сканирование с большими трудностями обрабатывает элементы JavaScript , потоковое мультимедиа , карты изображений .

Alexa Internet использует собственные алгоритмы для сканирования сети, чаще всего анализируя сайты по статистике посещения и количеству ведущих на них ссылок. Поэтому если пользователи хотят отдельно сохранить собственный сайт, они могут сохранить страницу через специальную панель инструментов, внедрённую в Alexa. Начиная с 2010 года «Архив Интернета» выполняет Worldwide Web Crawling по глобальной сети, собирая веб-элементы, страницы, сайты и части сайтов по всему интернету. С марта по декабрь 2011 года Worldwide Web Crawling захватил 2,7 млрд снимков и 2,3 млрд уникальных URL-адресов с 29 млн веб-сайтами . Каждое сканирование начинается со списка определённых URL-адресов, известных как «списки исходных адресов», а также подчиняется отдельному алгоритму, которое определяет глубину сканирования. Большинство сайтов будут захвачены только один, однако отдельные порталы (такие как новостные сайты) могут быть заархивированы чаще за счёт других обходов .

В 2013 году «Архив Интернета» совместно с Википедией и WordPress инициировал программу Archive No More 404, постоянно мониторящую порталы на предмет мёртвых ссылок. Впоследствии к программе присоединился . В рамках этого проекта в 2016 году «Архив» вместе с Mozilla Firefox создал плагин, позволяющий пользователям просматривать «мёртвые» страницы, если они были заархивированы . Подобное сотрудничество значительно расширило коллекцию статьями и материалами о текущих событиях. Также в «Архиве» сохраняются данные о веб-страницах, отсканированных Фондом Альфреда Слоуна и Alexa, NARA и , реестрами DNS , содержащими более 2,5 млрд записей с 2013 года. Также многие специализированные архивы сохраняют в коллекцию «Архива Интернета» окончательные скриншоты своих страниц. Например, к ним относят GeoCities и Wretch .

Обходы могут быть нацелены как на единовременный «захват» сайта, чтобы гарантировать сохранение хотя бы одной копии портала, так и предназначаться для частого повторного сканирования небольшого подмножества выбранных вручную сайтов с регулярным интервалом — частота сканирования напрямую зависит от того, насколько популярен сайт .

Wayback Machine

Wayback Machine является бесплатным онлайн-сервисом, обеспечивающим доступ к веб-архивам «Архива Интернета». Сервис стал доступен для общественности только в 2001 году. За первые 20 лет существования Wayback Machine каталогизировал и сохранил коллекцию из более чем 286 млрд веб-сайтов. Архивные снимки поддерживают страницы с HTML , JavaScript и CSS . Через Wayback Machine пользователи могут отслеживать изменения сайтов и сравнивать разные версии правок . На май 2022 года Wayback Machine предоставлял доступ к более чем 682 млрд сохранённых веб-страниц . В 2017 году «Архив Интернета» представил модернизированную версию Wayback Machine . С технической точки зрения программное обеспечение Wayback Machine не является архивом, а скорее общедоступным интерфейсом к ограниченному подмножеству всех хранилищ . Функционирование платформы осуществляется за счёт веб-краулев и пользователей, добавляющих собственные сайты через ввод URL интересующего портала .

Любой пользователь может сохранить URL-адреса для архивирования, а с бесплатной учётной записью в архиве можно создать и заархивировать любые исходящие или внешние ссылки на исходной странице . Согласно исследованию 2014 года, большинство пользователей «Архива» заходят на Wayback Machine в поисках англоязычных материалов, которые не могут найти в «живом» сегменте интернета .

Archive It

В 2006 году «Архив» представил сервис под названием Archive It — службу веб-архивирования, помогающую организациям и частным лицам собирать, создавать и сохранять собственные коллекции цифровых данных. Archive It предоставляет возможности для веб-сканирования сайтов, организацию и управление данными, техническими отчётами для мониторинга краулинга, интерфейс для ввода метаданных сайта и полнотекстовый поиск . Служба работает на программном обеспечении с открытым исходным кодом Heritrix .

Весь контент размещён в дата-центрах «Архива Интернета». Для пользователей доступны более 200 коллекций, связанных с историей, культурой, наукой, правами человека и другими общественно важными темами .

Human Rights Web Archive

Human Rights Web Archive (HRWA) — это коллекция архивных копий веб-сайтов более 600 неправительственных организаций, национальных институтов по правам человека и блогов, так или иначе освещающих тему прав человека . HRWA была собрана различными неправительственными организациями, национальными правозащитными учреждениями и отдельными лицами. Создание HRWA было инициировано библиотеками и информационными службами Колумбийского университета и его Центра документации и исследований в области прав человека (CHRDR) при поддержке Эндрю У. Меллона . Сбор данных начался в 2008 году, идентификацией необходимых порталов занимались специалисты в области прав человека из различных регионов мира. По состоянию на 2022-й коллекция регулярно обновлялась. Сайты межправительственных организаций, такие как ООН , не были включены в сборник. Коллекция включает более 711 веб-сайтов, из которых более 50 млн доступны для поиска . Сбор данных начался с пилотного проекта в 2008 году, веб-сайты сканировались ежеквартально с помощью службы Archive It . Копии коллекций хранятся в «Архиве Интернета» и Библиотеке Колумбийского университета. На 2022-й HRWA включал более тысячи сайтов и 50 млн документов .

Захвати Уолл-стрит

С началом в 2011 году серии протестов в Нью-Йорке под названием « Захвати Уолл-стрит », призывающих к социальному и экономическому равенству, члены команды Archive It и представители онлайн-сообщества добровольно выявляли и фиксировали все связанные с движением ресурсы. Коллекция включает в себя веб-сайты, блоги, социальные порталы и новостные статьи из традиционных или альтернативных СМИ . Информацию о протестах за пределами Нью-Йорка собирал при Университете Джорджа Мейсона .

Книжная коллекция

Количество всех текстов (17 мая, 2022)	34 739 370

Язык	Количество текстов
Английский	25 779 040
Французский	740 679
Немецкий	727 010
Нидерландский	722 451
Китайский	568 727
Арабский	475 878
Итальянский	396 364
Испанский	311 750
Японский	154 282
Греческий	144 773
Латинский	136 532
Урду	98 953
Русский	76 979
Португальский	71 961

Open Content Alliance

В 2005 году «Архив» инициировал создание Open Content Alliance (ОСА) — консорциума организаций и компаний, совместно занимающихся оцифровкой библиотечных фондов и размещением их в открытом доступе. В проекте участвовали, кроме «Архива Интернета», Yahoo , Калифорнийский университет , Торонтский университет , Национальный архив Великобритании и другие . В OCA входил и Microsoft , однако в 2008 году компания объявила, что сокращает свои инвестиции в проект по оцифровке книг. При этом Microsoft снял все договорные ограничения на книги, являющиеся общественным достоянием , и позволил «Архиву» оставить себе всё необходимое оборудование . Решение Microsoft заставило «Архив» искать новые источники финансирования .

На май 2022 года «Архив» предлагал более 35 000 000 книг и текстов в открытом доступе. Существует также коллекция из 2,3 млн современных электронных книг , доступных всем зарегистрированным пользователям . Пользователи могут осуществлять поиск по контенту, виду медиа, году, теме и предметам. На главной странице раздела книги также перечислены коллекции, сортированные по просмотрам, названию, дате публикации и автору. Для создания книжной коллекции «Архив» сотрудничал с более чем 1100 библиотечными учреждениями, такими как Бостонская публичная библиотека , Библиотека Конгресса и другие. В ходе партнёрства были оцифрованы разные типы носителей, в том числе микрофильмы, журналы и серийные публикации, в основном на английском, нидерландском , немецком , французском , арабском , итальянском . В день сканировали около 3 500 книг в 18 местах по всему миру. Книги, изданные более 95 лет назад , доступны для скачивания . Подобный механизм цифрового распространения использует те же технологии защиты, которые издатели используют для своих печатных электронных книг, распространяемых коммерческими предприятиями, такими как и Google Книги .

Open Library

«Архив Интернета» функционирует как онлайн-библиотека и выдаёт цифровые копии пользователям при условии, что одновременно в обращении находится не более одной цифровой копии книги . В 2006 году был запущен Open Library — онлайн-сервис, позволяющий пользователям читать электронные копии книг в соответствии с « контролируемой цифровой выдачей » (или CDL), ограничивающим количество одновременных заимствований одного отсканированного изображения. «Архив Интернета» обходит традиционные формы лицензионных ограничений — копии снимаются с физических копий, а не приобретаются в цифровой форме, поэтому проект никогда не заключает лицензионное соглашение с издателем .

Количество текстов по десятилетиям

XIX век
Десятилетие	Количество текстов (Май 17, 2022)
1800-е	90 206
1810-е	111 212
1820-е	177 361
1830-е	230 717
1840-е	269 639
1850-е	333 956
1860-е	352 204
1870-е	377 678
1880-е	496 878
1890-е	632 531

XX век
Десятилетие	Количество текстов (Май 17, 2022)
1900-е	836 646
1910-е	849 519
1920-е	623 578
1930-е	557 552
1940-е	631 979
1950-е	671 795
1960-е	806 789
1970-е	2 672 101
1980-е	1 320 636
1990-е	1 645 563

XXI век
Десятилетие	Количество текстов (Май 17, 2022)
2000-е	2 033 226
2010-е	3 543 643

Медиа

Количество аудиофайлов (Май 17, 2022)	14 099 859

Количество изображений (Май 17, 2022)	4 301 137

Количество видеофайлов (Май 17, 2022)	7 930 236

Микрофильмы из коллекции «Архива», 2011 год

Аудио

В 2017 году «Архив» инициировал проект The Great 78 Project, посвящённый сохранению тысяч виниловых пластинок , работающих со скоростью 78 об/мин , некоторые из которых были сделаны в начале 1900-х. Помимо «Архива», в проекте принимают участие и George Blood Audio. The Great 78 Project ставит перед собой цель найти, очистить, оцифровать и архивировать около тысячи записей со старых проигрывателей в день . Для этого каждая пластинка очищается на специальной машине, которая распыляет на её поверхность дистиллированную воду . Впоследствии небольшой пылесос всасывает воду вместе с грязью, накопившейся в пластинках за эти годы. Затем диски фотографируют и на основе этих фотографий изготавливают этикетки для добавления в общую базу данных архива. Большая часть всех обработанных записей принадлежит крупным звукозаписывающим компаниям, таким как Columbia Records , RCA Records и Capitol Studios , однако в коллекцию вошли и около 1700 других лейблов . Только за первый год работы было размещено около 50 000 оцифрованных дисков. В рамках проекта «Архив Интернета» планирует оцифровать более 200 000 физических записей, большинство из которых относится к 1950-м годам и ранее .

Значительную часть аудиоколлекции «Архива Интернета» составляет Live Music Archive — коллекция более чем 220 000 концертных записей, сжатых без потерь . Часть этой коллекции досталась от музыкального сообщества , распространяющего записи живых концертов . «Архив» содержит записи живых выступлений различных артистов, включая Grateful Dead , Джона Мейера , Эллиотта Смита , The Smashing Pumpkins .

Фото

На 2022 год фото коллекция «Архива» состояла из 4,3 млн изображений . Одной из крупнейших подколлекций являются полученные с 2007-го в сотрудничестве с NASA . Организации совместно сканировали и архивировали фотографии, исторические фильмы и видео из архива агентства. Благодаря этому партнёрству коллекции доступны в едином архиве снимков NASA на сайте «Архива» .

В 2014 году исследователь из Университета Джорджа Вашингтона выгрузил 2,6 млн фотографий из находящихся в открытом доступе книг из «Архива». Впоследствии он добавил все изображения на сервис Flickr , заранее добавив тэги ко всем картинкам, чтобы пользователям был доступен поиск по материалам .

Видео и игры

Видеоколлекция «Архива» состоит из множества подколлекций, включая более 3 млн часов записанных новостных телетрансляций . Проект по записи и хранению новостных репортажей был инициирован Philly Political Media Watch Project — программой, созданной , , Консорциумом лингвистических данных при Пенсильванском университете и Центром общественных исследований и обслуживания Делавэрского университета . Благодаря проекту на сайте «Архива» доступны сотни тысяч новостных репортажей и сохранённых политических реклам .

В 2019 году «Архив» пополнил коллекцию 2,5 тысячами старых игр, написанных под систему DOS . Это произошло по результатам проекта eXoDOS, в рамках которого старые игры анализировались и оптимизировались для работы на современных компьютерах . В 2021 году компания Adobe заявила о прекращении работы Flash Player . В ответ «Архив» опубликовал на сайте коллекцию из несколько сотен игр и ^* .

Операционные системы

В 2016 году «Архив Интернета» опубликовал крупную коллекцию программ для семейства операционных систем Windows 3.x . Всего в разделе The Windows 3.x Showcase размещено 1523 программы, работа которых возможна благодаря встроенному эмулятору Windows 3.1 на JavaScript. Помимо этого в коллекцию входят программы, игры и демонстрационная версия Windows 95 . Для защищённых авторским правом файлов сотрудники «Архива» опубликовали бесплатные аналоги .

Авторское право

Контролируемая цифровая выдача

Для предоставления доступа к книжным работам через сервис Open Library руководство «Архива» следует принципам контролируемой цифровой выдачи — интерпретации закона об авторском праве , согласно которому библиотеки могут одалживать оцифрованные печатные книги по тому же принципу, что и печатные — количество выданных цифровых изданий должно соответствовать тем копиям, которыми владеет библиотека. «Архив» приобретает все книги из своей коллекции, либо в печатном, либо в электронном виде. Затем он сканирует их для создания собственных цифровых файлов, которые впоследствии делает доступным для читателей. Поэтому проект никогда не заключает лицензионное соглашение с издателем. Все выдаваемые онлайн-файлы имеют встроенный код, благодаря которому доступ к работе может получить только один пользователь через электронную очередь. Подобная модель позволяет библиотекам делать свои книги доступными в цифровом виде, но также позволяет издателям и авторам расширений получать оплату за свою работу без потери продаж. Когда печатная библиотечная книга очень популярна, библиотеки, как правило, покупают больше экземпляров. Читатели не имеют права на копирование или распространение материалов. Таким образом система CDL позволяет обходить часть ограничений, заложенных в законодательство по авторскому праву .

Веб-архивирование

«Архив» удаляет данные из Wayback Machine по просьбам правообладателей, которые могут доказать авторские права, предоставить описание материала, контактные данные заявителя и подписанное заявление .

Влияние

Деятельность «Архива Интернета» оказала существенное влияние на развитие практик веб-архивирования по всему миру. По примеру АИ было создано множество масштабных программ и порталов веб-архивирования, часто — национальных. Одними из первых начали сохранять онлайн-контент крупные международные библиотеки — Библиотека Конгресса , Национальная библиотека Австралии , Национальная библиотека Швеции , Национальная библиотека Норвегии и Национальная библиотека Новой Зеландии . В 2013 году стартовал проект EU web archive, занимающийся сканированием и архивированием веб-сайтов Европейского союза для сохранения европейского веб-контента в долгосрочной перспективе и в открытом доступе . В 2000 году Чехия инициировала проект по веб-архивации национальных сайтов . Позже аналогичные инициативы были реализованы в Хорватии , Венгрии , Ирландии , Бельгии и других странах . В большинстве случаев архивирование осуществлялось созданным «Архивом» веб-краулером Heritrix . Также «Архив Интернета» предоставляет бо́льшую часть техники, которая используется другими учреждениями для создания приложений по архивированию .

Коллекции «Архива» часто используют исследователи из различных областей науки. Так, данные анализируют на предмет изменений лингвистических и социальных практик , поведения компаний, стратегий продаж . Помимо этого, учёные могут использовать архивированные материалы для установления права на открытие или публикацию , а также чтобы получить доступ к журналам открытого доступа — согласно исследованиям 2020 года, с начала 2000-х из интернета исчезло 84 журнала ОД по естественным наукам и ещё около 100 — по социальным и гуманитарным .

Правовые споры и блокировки

Церковь Саентологии

В 2002 году юристы Церкви Саентологии потребовали от «Архива Интернета» удалить из Wayback Machine архивные копии страницы портала Xenu.net, принадлежащего критику церкви Андреасу Хельдал-Лунду. Причиной послужило наличие выдержек из документов Церкви на портале Хельдала-Лунду. Однако в ответ «Архив» удалил не только страницы сайта с выдержками, но и закрыл доступ к всему порталу Xenu.net. Решение «Архива» вызвала масштабные публичные споры об этике и свободе слова .

National Emergency Library

Из-за пандемии COVID-19 и вынужденной изоляции многих людей в 2020 году «Архив» запустил временную службу «Национальная библиотека на случай чрезвычайных ситуаций», выложив в открытый доступ копии 1,4 млн книг для тех людей, которые не могли попасть в библиотеки. В отличие от традиционной работы сервиса Open Library, пользователи Библиотеки на случай чрезвычайных ситуаций могли одолжить тексты без очереди . В ответ американское объединение авторов выпустило открытое письмо, в котором обвинило организацию в «фактическом воровстве» — проект нарушил ряд положений CDL, разрешив более чем одному пользователю доступ к текстам. В ответ на нарушения на «Архив Интернета» четыре коммерческих издательства — Hachette , Penguin Random House , Wiley — подали иск, обвинив портал в пиратстве . По этой причине «Архив Интернета» завершил свою программу раньше, чем планировалось, − 16 июня 2020 года, вместо 30 июня . Иск был направлен на запрет функционирования Open Library как схемы, которая оцифровывает и выдаёт охраняемые авторским правом работы .

25 марта 2023 года суд признал виновным «Архив Интернета» в нарушении авторских прав четырёх издателей. По мнению суда, организация должна была получить разрешение на распространение литературы у правообладателей книг. «Архив Интернета» заявил о решении подать апелляцию .

Страны СНГ

В 2014 году Роскомнадзор внёс «Архив Интернета» в реестр запрещённых сайтов за наличие копии документального фильма « Звон мечей », выпущенного Исламским государством . Через год Прокуратура Российской Федерации вынесла решение о блокировке сайта «Архива Интернета» на основании статьи 15.3 закона «Об информации, информационных технологиях и о защите информации». Причиной для блокировки портала послужила архивированная статья «Одиночный джихад в России», которая, согласно прокуратуре, содержала призывы к массовым беспорядкам и осуществлению экстремистской деятельности . После удаления ресурсом всех ссылок на запрещённые в России сайты доступ к порталу был восстановлен .

В 2015 году портал «Архив Интернета» попал в список нежелательных сайтов, заблокированных в Казахстане .

6 июня 2017 года Октябрьский суд Бишкека заблокировал сайт в Кыргызстане из-за материалов «экстремистского содержания» .

В 2019 году Ассоциация по защите авторских прав в интернете (АЗАПИ) выступила за блокировку «Архива Интернета» в России. Причиной для этого послужило присутствие в коллекции библиотеки копий аудиокниг российских писателей — Дмитрия Глуховского и Дарьи Донцовой . Иск по делу был подан 13 марта 2019 года, рассмотрение Мосгорсудом состоялось 13 мая 2019 года в экстренном порядке. Согласно решению суда «Архиву Интернета» запретили создавать технические условия для размещения аудиокниг .

12 мая 2022 года Роскомнадзор подал иск против «Архива Интернета» по статье 13.41 КоАП РФ («Неудаление информации, признанной в РФ запрещённой») . Причиной стало архивированное сервисом видео, в котором показывалось как изготовить коктейль Молотова . Судебное заседание прошло 28 июня 2022 года, по его результатам «Архив Интернета» оштрафовали на 800 тысяч рублей .

Турция

9 октября 2016 года «Архив» был временно заблокирован в Турции после того, как он был использован хакерами для размещения 17 ГБ правительственных электронных писем .

Индия

В 2017 году сайт сервиса WayBackMachine был заблокирован в Индии по решению суда Мадраса в ответ на иск болливудских правообладателей, указавших на наличие на портале нескольких тысяч ссылок на пиратские копии фильмов . После блокировки индийское правительство обвинили в цензуре .

См. также

Примечания

(англ.)
↑
(англ.) — 2015.
↑ . Wayback Machine. Дата обращения: 7 июня 2021.
↑ . Internet Archive. Дата обращения: 16 мая 2022.
↑ , с. 2966—2976.
Joel Khalili. (англ.) . TechRadar. Дата обращения: 23 декабря 2021. 22 декабря 2021 года.
↑ Recode Staff. . Vox. Recode (8 марта 2017). Дата обращения: 12 июня 2021. 2 июня 2021 года.
. Harvard University. Дата обращения: 12 июня 2021. 25 октября 2021 года.
. Internet. Hall of Fame. Дата обращения: 12 июня 2021. 21 июня 2021 года.
Quentin Hardy. . Forbes (27 ноября 2009). Дата обращения: 12 июня 2021. 25 октября 2021 года.
↑ .
, с. 265—280.
Kara Swisher. . The Wall Street Journal (20 мая 1999). Дата обращения: 12 июня 2021. 25 октября 2021 года.
Carolyn Said. . SF Gate (7 мая 1998). Дата обращения: 12 июня 2021. 2 апреля 2019 года.
Mitchell Clark. . The Verge (21 мая 2021). Дата обращения: 13 июня 2021. 20 июня 2021 года.
Ferra (22 мая 2021). Дата обращения: 13 июня 2021. 22 мая 2021 года.
Barbara Quint. . Information Today (19 октября 1998). Дата обращения: 13 июня 2021. 31 марта 2019 года.
John Alderman. . Wired (14 октября 1998). Дата обращения: 12 июня 2021. 25 октября 2021 года.
David BankStaff. . The Wall Street Journal (17 марта 1999). Дата обращения: 13 июня 2021. 19 мая 2021 года.
Jon Christian. The Outline (июнь 2017). Дата обращения: 13 июня 2021. 1 июня 2021 года.
. Creative Commons (1 октября 2005). Дата обращения: 13 июня 2021. 24 ноября 2020 года.
↑ .
↑ , с. 43—57.
↑ Aja Romano. . Vox (23 января 2020). Дата обращения: 12 июня 2021. 18 августа 2021 года.
Internet Archive. Дата обращения: 13 июня 2021.
Lucas Mearian. . Computer world (10 сентября 2011). Дата обращения: 13 июня 2021. 25 октября 2021 года.
. Internet Archive. Дата обращения: 13 июня 2021.
. Wired (20 августа 2012). Дата обращения: 13 июня 2021. 7 марта 2021 года.
, с. 67—76.
, с. 29—59.
Steve Cisler. . Journal of the Internet. Дата обращения: 13 июня 2021. 25 октября 2021 года.
↑ .
↑ . Publications Office of the European Union. Дата обращения: 17 июня 2021. 19 июня 2021 года.
↑ .
Aaron Souppouris. . The Verge (27 октября 2012). Дата обращения: 12 июня 2021. 11 апреля 2021 года.
↑ David Streitfeld. . New York Times (31 октября 2014). Дата обращения: 13 июня 2021. 10 мая 2021 года.
↑ Benny Evangelista. . San Francisco Chronicle (28 октября 2016). Дата обращения: 12 июня 2021. 20 мая 2021 года.
Kurtis Alexander. . SF gate (6 ноября 2013). Дата обращения: 13 июня 2021. 15 мая 2021 года.
David Streitfeld. . New York Times (24 октября 2013). Дата обращения: 13 июня 2021. 26 октября 2021 года.
. C News (30 ноября 2016). Дата обращения: 11 июня 2021. 15 апреля 2021 года.
Andrew Liptak. . The Verge (17 марта 2019). Дата обращения: 12 июня 2021. 29 августа 2021 года.
Mark Hill. . Discover (13 мая 2021). Дата обращения: 13 июня 2021. 8 июня 2021 года.
. BBC News (3 октября 2018). Дата обращения: 13 июня 2021. 9 июля 2021 года.
Klint Finley. . Wired (11 марта 2019). Дата обращения: 13 июня 2021. 24 ноября 2019 года.
Jon Porter. . The Verge (4 ноября 2019). Дата обращения: 12 июня 2021. 25 февраля 2021 года.
Adam Smith. . PC Mag (4 ноября 2019). Дата обращения: 13 июня 2021. 7 марта 2021 года.
Jon Porter. . The Verge (26 февраля 2020). Дата обращения: 12 июня 2021. 22 июня 2021 года.
Lily Hay Newman. . Wired (17 сентября 2020). Дата обращения: 13 июня 2021. 18 мая 2021 года.
Lila Bailey. . Internet Archive Blogs (30 октября 2019). Дата обращения: 13 июня 2021.
.
Elizabeth Dwoskin. . Washington Post (20 июня 2020). Дата обращения: 13 июня 2021. 16 июня 2021 года.
. Trash Box (2 ноября 2020). Дата обращения: 5 июня 2021. 28 июня 2021 года.
Adi Robertson. . The Verge (12 мая 2020). Дата обращения: 12 июня 2021. 20 мая 2021 года.
J. Fingas. . Engadget (1 ноября 2020). Дата обращения: 13 июня 2021. 23 июля 2021 года.
Victor Barreiro. . Rappler (2 ноября 2020). Дата обращения: 13 июня 2021. 26 октября 2021 года.
.
, с. 1441—1443.
↑ Kalev Leetaru. . Forbes (11 июня 2021). Дата обращения: 12 июня 2021. 26 октября 2021 года.
↑ .
. GDELT Project. Дата обращения: 20 июня 2021. 8 марта 2021 года.
Mark Graham. Archive.org (9 августа 2016). Дата обращения: 20 июня 2021.
↑ , с. 1741—1755.
Michael Bryant. Groovy Post (22 апреля 2021). Дата обращения: 29 мая 2021. 18 мая 2021 года.
↑ , с. 109—112.
Chris Welch. . The Verge (22 октября 2015). Дата обращения: 12 июня 2021. 11 апреля 2021 года.
, с. 160—172.
Laura Bohannon. . Spartan News Room (7 декабря 2017). Дата обращения: 5 июня 2021. 24 июня 2021 года.
, с. 64.
.
.
Антон Благовещенский. . Российская газета (7 марта 2012). Дата обращения: 12 июня 2021. 26 октября 2021 года.
↑ Mark Graham. . Global Investigative Journalism Network (5 мая 2021). Дата обращения: 29 мая 2021. 29 мая 2021 года.
.
↑ .
, с. 103—110.
. Columbia University Libraries. Дата обращения: 16 мая 2022. 11 мая 2021 года.
Jennifer Schuessler. . New York Times (2 мая 2012). Дата обращения: 13 июня 2021. 28 октября 2021 года.
. Archive it (ноябрь 2011). Дата обращения: 15 июня 2021. 3 июня 2021 года.
.
. Internet Archive. Дата обращения: 17 мая 2022.
Katie Hafner. . The New York Times (3 октября 2005). Дата обращения: 16 июня 2021. 1 сентября 2021 года.
. The New York Times (26 октября 2005). Дата обращения: 16 июня 2021. 1 сентября 2021 года.
. Internet Archive. Дата обращения: 15 июня 2021.
Nate Anderson. . Ars Technica (26 мая 2008). Дата обращения: 15 июня 2021. 1 сентября 2021 года.
Miguel Helft. . The New York Times (24 мая 2008). Дата обращения: 15 июня 2021. 12 декабря 2020 года.
Michael Bryant. G Post (22 апреля 2021). Дата обращения: 15 июня 2021. 16 июня 2021 года.
Brewster Kahle. . Educause review (13 марта 2017). Дата обращения: 15 июня 2021. 2 августа 2021 года.
↑ Russell Brandom. . The Verge (1 июня 2020). Дата обращения: 12 июня 2021. 1 июня 2020 года.
. Internet Archive. Дата обращения: 16 июня 2021.
. Internet Archive. Дата обращения: 17 мая 2022.
. Internet Archive. Дата обращения: 17 мая 2022.
. Internet Archive. Дата обращения: 17 мая 2022.
Will Pritchard. . The Vinyl Factory (18 августа 2017). Дата обращения: 16 июня 2021. 7 ноября 2017 года.
Kait Sanchez. . The Verge (26 апреля 2021). Дата обращения: 12 июня 2021. 25 мая 2021 года.
Dani Deahl. . The Verge (12 августа 2017). Дата обращения: 12 июня 2021. 12 июля 2021 года.
Jake Coyle. . Taiwan News. Дата обращения: 16 июня 2021. 28 октября 2021 года.
Verge Staff. . The Verge (13 апреля 2021). Дата обращения: 16 июня 2021. 20 апреля 2021 года.
. Internet Archive. Дата обращения: 16 июня 2021.
Bob Jacobs, Paul Hickman. . NASA. Дата обращения: 16 июня 2021. 28 августа 2021 года.
Leo Kelion. . BBC News (29 августа 2014). Дата обращения: 16 июня 2021. 5 августа 2021 года.
Василий Парфенов. . Популярная Механика (17 октября 2019). Дата обращения: 12 июня 2021. 28 октября 2021 года.
Александр Абрамов. . SpB IT (23 ноября 2020). Дата обращения: 12 июня 2021. 28 января 2021 года.
Ian Carlos Campbell. . The Verge (19 ноября 2020). Дата обращения: 12 июня 2021. 20 ноября 2020 года.
. N+1 (15 февраля 2016). Дата обращения: 12 июня 2021. 28 октября 2021 года.
↑ .
Constance Grady. . Vox (2 апреля 2020). Дата обращения: 12 июня 2021. 4 апреля 2020 года.
, с. 17—24.
↑ .
. International Internet Preservation Consortium (8 декабря 2020). Дата обращения: 17 июня 2021. 4 июля 2021 года.
. International Internet Preservation Consortium (26 июня 2020). Дата обращения: 17 июня 2021. 4 июля 2021 года.
. Archive It. Дата обращения: 17 июня 2021. 2 июля 2021 года.
.
.
.
, с. 875.
Jeffrey Brainard. . Science (8 сентября 2020). Дата обращения: 1 июня 2021. 15 октября 2020 года.
Diana Kwon. . Nature (10 сентября 2020). Дата обращения: 1 июня 2021. 3 октября 2020 года.
avouner. . Хабр (10 сентября 2020). Дата обращения: 5 июня 2021. 29 октября 2021 года.
Lisa M. Bowman. . CNet (24 сентября 2002). Дата обращения: 10 июня 2021. Архивировано 15 мая 2012 года.
Ernest Miller. . LawMeme (24 сентября 2002). Дата обращения: 10 июня 2021. Архивировано 16 ноября 2012 года.
Дмитрий Кинский. . Мир Фантастики (3 апреля 2020). Дата обращения: 12 июня 2021. 4 ноября 2021 года.
. Ведомости (2 июня 2020). Дата обращения: 12 июня 2021. 30 июня 2021 года.
. CNews (2 июня 2020). Дата обращения: 12 июня 2021. 1 сентября 2021 года.
Kim Lyons. . The Verge (14 июня 2020). Дата обращения: 12 июня 2021. 9 июля 2021 года.
Elizabeth A. Harris. . New York Times (1 июня 2020). Дата обращения: 13 июня 2021.
Andrew Albanese. . Publishers Weekly (1 сентября 2020). Дата обращения: 18 июня 2021. 8 сентября 2020 года.
Anna Lovine. . Mashable (25 марта 2023). Дата обращения: 4 апреля 2023. 6 апреля 2023 года.
Paul Hill. . NeoWin (25 марта 2023). Дата обращения: 4 апреля 2023. 2 апреля 2023 года.
Jay Peters and Sean Hollister. . The Verge (23 мая 2023). Дата обращения: 7 апреля 2023. 25 марта 2023 года.
. Time (31 марта 2023). Дата обращения: 7 апреля 2023. 7 апреля 2023 года.
. Meduza (25 октября 2014). Дата обращения: 18 июня 2021. 15 июня 2021 года.
Георгий Перемитин. . РБК (25 июня 2015). Дата обращения: 12 июня 2021. 21 августа 2021 года.
. Москва 24 (1 сентября 2015). Дата обращения: 12 июня 2021. 27 ноября 2021 года.
Дмитрий Шестоперов, Анастасия Евтушенко. . Газета.ru (18 апреля 2016). Дата обращения: 13 июня 2021. 3 мая 2021 года.
. Kaz Pravda (21 октября 2015). Дата обращения: 18 июня 2021. 3 октября 2021 года.
Наталия Козина. . Kloop (18 июля 2017). Дата обращения: 12 июня 2021. 28 июня 2021 года.
. C News (23 августа 2019). Дата обращения: 12 июня 2021. 24 июня 2021 года.
. РБК (12 мая 2022). Дата обращения: 13 мая 2022. 12 мая 2022 года.
. Интерфакс (12 мая 2022). Дата обращения: 17 мая 2022. 16 мая 2022 года.
Валерий Романов. . газета.ru (29 июня 2022). Дата обращения: 1 июля 2022. 1 июля 2022 года.
. Daily News (10 октября 2016). Дата обращения: 18 июня 2021. 14 апреля 2021 года.
. Nag (16 августа 2017). Дата обращения: 12 июня 2021. 29 октября 2021 года.
Colm Gorey. . Silicon Republic (9 августа 2017). Дата обращения: 18 июня 2021. 2 марта 2021 года.
Leo Kelion. . BBC. Дата обращения: 18 июня 2021. 6 августа 2018 года.

Литература

Acker, A., & Chaiet, M. // Harvard Kennedy School (HKS) Misinformation Review. — 2020. — doi : .
Arora S., Li Y., Youtie J., Shapira P. Using the wayback machine to mine websites in the social sciences: A methodological resource. — 2015. — Т. 67 , вып. 8 . — С. 1904—1915 . — doi : .
AlNoamany Y., AlSum A., Weigle M., Nelson M. Who and what links to the Internet Archive // Int J Digit Libr. — 2014. — Вып. 14 . — С. 101—115 . — doi : .
Berčič B. Protection of Personal Data and Copyrighted Material on the Web: The Cases of Google and Internet Archive // Communications Technology Law. — 2005. — Т. 14 , вып. 1 . — С. 17—24 . — doi : .
Bowyer S. The Wayback Machine: notes on a re‑enchantment // Archival Science. — 2021. — Т. 21 . — С. 43—57 .
Fernando Z., Marenzi I., Nejdl W., Kalyani R. ArchiveWeb: Collaboratively Extending and Exploring Web Archive Collections // Research and Advanced Technology for Digital Libraries. — 2016. — С. 107—121 .
Harrison T. The Internet Archive and Content Analysis // Qualitative Social Research on ICT. — 2005.
Graham P. Guest Editorial: Reflections on the Ethics of Web Archiving // Journal of Archival Organization. — 2019. — С. 103—110 . — doi : .
Jaffe E., Kirkpatrick S. Architecture of The Internet Archive // Proceedings of of SYSTOR 2009: The Israeli Experimental Systems Conference 2009, Haifa, Israel, May 4-6, 2009. — 2009. — doi : .
Kahle B. Brewster Kahle. Founder,WAIS, Internet Archive, Alexa Internet // Founders at Work. Stories of Startups' Early Days. — 2008. — С. 265—280 .
Karolina Holub. Croatian Web Archive: An Overview // Преглед НЦД. — 2014. — Вып. 25 . — С. 11—16 .
Kimpton M., Ubois J. Year-by-Year: From an Archive of the Internet to an Archive on the Internet // Web Archiving. — 2006. — С. 201—212 .
Lischer-Katz Z. Conceptualizing emergent archival forms: A case study of the occupy wall street “archive” // Association for Information Science & Technology. — 2013. — doi : .
Lerner A., Kohno T., Roesner F. // Association for Computing Machinery. — 2017. — doi : .
Maemura E., Worby N., Milligan I., Becker C. If These Crawls Could Talk: Studying and Documenting Web Archives Provenance // Journal of the association for information science and technology. — 2018. — Т. 69 , вып. 10 . — С. 1223—1233 .
Milligan I. Lost in the Infinite Archive: The Promise and Pitfalls of Web Archives // International Journal of Humanities and Arts Computing. — 2016.
Mohr G., Stack M.,Ranitovic I.,Avery D., Kimpton M. // 4th International Web Archiving Workshop (2004). — 2004.
Murphy J., Hashim N., O’Connor P. Take Me Back: Validating the Wayback Machine // Journal of Computer-Mediated Communication. — 2008. — Вып. 13 . — С. 60—75 .
Niels Brügger, Ditte Laursen. The Historical Web and Digital Humanities. The Case of National Web Domain. — Routledge. — 2019. — 206 с. — ISBN 9780367671181 .
Notess G. // Online. — 2002. — Т. 26 , вып. 2 .
Ojala M. Controlled Digital Lending: Legal Lending or Piracy? // Information Today. — 2021. — Т. 45 , вып. 1 .
Pearce D., Charlton B. Plagiarism of online material may be proven using the Internet Archive Wayback Machine (archive.org) // Medical Hypothesis. — 2009. — С. 875 .
Rackley M. Internet Archive // Encyclopedia of Library and Information Sciences. — 2010. — Т. 1 , вып. 1 . — С. 2966—2976 .
Rogers R. Doing Web history with the Internet Archive: screencast documentaries // Internet Histories. — 2017. — Т. 1 , вып. 1—2 . — С. 160—172 . — doi : .
Simon J. // "International Collections Development Workshop". — 2006.
Shawn M. Jones, Michele C. Weigle, Alexander Nwala, Michael L. Nelson. // ArXiv.org. — 2018.
Schwarz T., Baker M., Bassi S., Baumgart B., Flagg W., Ingen C., Joste K., Manasse M., Shah M. Disk Failure Investigations at the Internet Archive // NASA/IEEE Conference on Mass Storage Systems and Technologies. — 2006.
Toyoda M., Kitsuregawa M. The History of Web Archiving // Proceedings of the IEEE. — 2012. — Т. 100 . — С. 1441—1443 .
Witten I.,Gori M., Numerico T. Literature and the web // Web Dragons. — 2007. — С. 29—59 .
Савицкая Т.Е. Проект "Миллион книг" // Библиотековедение. — 2019. — Т. 68 , вып. 1 . — С. 67—76 .

Ссылки

от 19 июня 2021 на Wayback Machine

[_5104b9f13bc12bec-1] (англ.)

[_c7b67ff5249dcc7b-2] ↑

[_59aa30b6513b4878-4] (англ.) — 2015.

[web-5] . Wayback Machine. Дата обращения: 7 июня 2021.

[IA-6] . Internet Archive. Дата обращения: 16 мая 2022.

[_1819042bb1000134-7] , с. 2966—2976.

[8] Joel Khalili. (англ.) . TechRadar. Дата обращения: 23 декабря 2021. 22 декабря 2021 года.

[Staff-9] Recode Staff. . Vox. Recode (8 марта 2017). Дата обращения: 12 июня 2021. 2 июня 2021 года.

[10] . Harvard University. Дата обращения: 12 июня 2021. 25 октября 2021 года.

[11] . Internet. Hall of Fame. Дата обращения: 12 июня 2021. 21 июня 2021 года.

[12] Quentin Hardy. . Forbes (27 ноября 2009). Дата обращения: 12 июня 2021. 25 октября 2021 года.

[_66742cd590555f91-13] .

[_0065afceca350331-14] , с. 265—280.

[15] Kara Swisher. . The Wall Street Journal (20 мая 1999). Дата обращения: 12 июня 2021. 25 октября 2021 года.

[16] Carolyn Said. . SF Gate (7 мая 1998). Дата обращения: 12 июня 2021. 2 апреля 2019 года.

[17] Mitchell Clark. . The Verge (21 мая 2021). Дата обращения: 13 июня 2021. 20 июня 2021 года.

[18] Ferra (22 мая 2021). Дата обращения: 13 июня 2021. 22 мая 2021 года.

[19] Barbara Quint. . Information Today (19 октября 1998). Дата обращения: 13 июня 2021. 31 марта 2019 года.

[20] John Alderman. . Wired (14 октября 1998). Дата обращения: 12 июня 2021. 25 октября 2021 года.

[21] David BankStaff. . The Wall Street Journal (17 марта 1999). Дата обращения: 13 июня 2021. 19 мая 2021 года.

[22] Jon Christian. The Outline (июнь 2017). Дата обращения: 13 июня 2021. 1 июня 2021 года.

[23] . Creative Commons (1 октября 2005). Дата обращения: 13 июня 2021. 24 ноября 2020 года.

[_9c1a42788b53e5b6-24] .

[_e55ba1d7c4c1795b-25] , с. 43—57.

[Vox-26] Aja Romano. . Vox (23 января 2020). Дата обращения: 12 июня 2021. 18 августа 2021 года.

[27] Internet Archive. Дата обращения: 13 июня 2021.

[28] Lucas Mearian. . Computer world (10 сентября 2011). Дата обращения: 13 июня 2021. 25 октября 2021 года.

[29] . Internet Archive. Дата обращения: 13 июня 2021.

[30] . Wired (20 августа 2012). Дата обращения: 13 июня 2021. 7 марта 2021 года.

[_309aa8a603063569-31] , с. 67—76.

[_c7cc6624e5391ff4-32] , с. 29—59.

[33] Steve Cisler. . Journal of the Internet. Дата обращения: 13 июня 2021. 25 октября 2021 года.

[_38ff7b6dfa5ce259-34] .

[EUweb-35] . Publications Office of the European Union. Дата обращения: 17 июня 2021. 19 июня 2021 года.

[_58efcb1bc7679b88-36] .

[37] Aaron Souppouris. . The Verge (27 октября 2012). Дата обращения: 12 июня 2021. 11 апреля 2021 года.

[Streitfeld-38] David Streitfeld. . New York Times (31 октября 2014). Дата обращения: 13 июня 2021. 10 мая 2021 года.

[SFC-39] Benny Evangelista. . San Francisco Chronicle (28 октября 2016). Дата обращения: 12 июня 2021. 20 мая 2021 года.

[40] Kurtis Alexander. . SF gate (6 ноября 2013). Дата обращения: 13 июня 2021. 15 мая 2021 года.

[41] David Streitfeld. . New York Times (24 октября 2013). Дата обращения: 13 июня 2021. 26 октября 2021 года.

[42] . C News (30 ноября 2016). Дата обращения: 11 июня 2021. 15 апреля 2021 года.

[43] Andrew Liptak. . The Verge (17 марта 2019). Дата обращения: 12 июня 2021. 29 августа 2021 года.

[44] Mark Hill. . Discover (13 мая 2021). Дата обращения: 13 июня 2021. 8 июня 2021 года.

[45] . BBC News (3 октября 2018). Дата обращения: 13 июня 2021. 9 июля 2021 года.

[46] Klint Finley. . Wired (11 марта 2019). Дата обращения: 13 июня 2021. 24 ноября 2019 года.

[47] Jon Porter. . The Verge (4 ноября 2019). Дата обращения: 12 июня 2021. 25 февраля 2021 года.

[48] Adam Smith. . PC Mag (4 ноября 2019). Дата обращения: 13 июня 2021. 7 марта 2021 года.

[49] Jon Porter. . The Verge (26 февраля 2020). Дата обращения: 12 июня 2021. 22 июня 2021 года.

[50] Lily Hay Newman. . Wired (17 сентября 2020). Дата обращения: 13 июня 2021. 18 мая 2021 года.

[51] Lila Bailey. . Internet Archive Blogs (30 октября 2019). Дата обращения: 13 июня 2021.

[_0dd56075c538a061-52] .

[53] Elizabeth Dwoskin. . Washington Post (20 июня 2020). Дата обращения: 13 июня 2021. 16 июня 2021 года.

[54] . Trash Box (2 ноября 2020). Дата обращения: 5 июня 2021. 28 июня 2021 года.

[55] Adi Robertson. . The Verge (12 мая 2020). Дата обращения: 12 июня 2021. 20 мая 2021 года.

[56] J. Fingas. . Engadget (1 ноября 2020). Дата обращения: 13 июня 2021. 23 июля 2021 года.

[57] Victor Barreiro. . Rappler (2 ноября 2020). Дата обращения: 13 июня 2021. 26 октября 2021 года.

[_84e9c85b5ba12d21-58] .

[_786e6b2df946817c-59] , с. 1441—1443.

[Forbes-60] Kalev Leetaru. . Forbes (11 июня 2021). Дата обращения: 12 июня 2021. 26 октября 2021 года.

[_40cfcbe60eac4c0d-61] .

[62] . GDELT Project. Дата обращения: 20 июня 2021. 8 марта 2021 года.

[63] Mark Graham. Archive.org (9 августа 2016). Дата обращения: 20 июня 2021.

[_98bc3d47ef78975e-64] , с. 1741—1755.

[65] Michael Bryant. Groovy Post (22 апреля 2021). Дата обращения: 29 мая 2021. 18 мая 2021 года.

[_37be5483330fbb7d-66] , с. 109—112.

[67] Chris Welch. . The Verge (22 октября 2015). Дата обращения: 12 июня 2021. 11 апреля 2021 года.

[_f0b6fcdc2c677cd2-68] , с. 160—172.

[69] Laura Bohannon. . Spartan News Room (7 декабря 2017). Дата обращения: 5 июня 2021. 24 июня 2021 года.

[_f259a07ca14d7f24-70] , с. 64.

[_40b9b0a6acda679c-71] .

[_878a6881a283ec1b-72] .

[73] Антон Благовещенский. . Российская газета (7 марта 2012). Дата обращения: 12 июня 2021. 26 октября 2021 года.

[Graham-74] Mark Graham. . Global Investigative Journalism Network (5 мая 2021). Дата обращения: 29 мая 2021. 29 мая 2021 года.

[_2a070903c48b0538-75] .

[_e976f91c2b5d2ac5-76] .

[_83ebf7fff325b9fb-77] , с. 103—110.

[78] . Columbia University Libraries. Дата обращения: 16 мая 2022. 11 мая 2021 года.

[79] Jennifer Schuessler. . New York Times (2 мая 2012). Дата обращения: 13 июня 2021. 28 октября 2021 года.

[80] . Archive it (ноябрь 2011). Дата обращения: 15 июня 2021. 3 июня 2021 года.

[_1529f69bbceebe0a-81] .

[82] . Internet Archive. Дата обращения: 17 мая 2022.

[83] Katie Hafner. . The New York Times (3 октября 2005). Дата обращения: 16 июня 2021. 1 сентября 2021 года.

[84] . The New York Times (26 октября 2005). Дата обращения: 16 июня 2021. 1 сентября 2021 года.

[85] . Internet Archive. Дата обращения: 15 июня 2021.

[86] Nate Anderson. . Ars Technica (26 мая 2008). Дата обращения: 15 июня 2021. 1 сентября 2021 года.

[87] Miguel Helft. . The New York Times (24 мая 2008). Дата обращения: 15 июня 2021. 12 декабря 2020 года.

[88] Michael Bryant. G Post (22 апреля 2021). Дата обращения: 15 июня 2021. 16 июня 2021 года.

[89] Brewster Kahle. . Educause review (13 марта 2017). Дата обращения: 15 июня 2021. 2 августа 2021 года.

[Brandom-90] Russell Brandom. . The Verge (1 июня 2020). Дата обращения: 12 июня 2021. 1 июня 2020 года.

[91] . Internet Archive. Дата обращения: 16 июня 2021.

[92] . Internet Archive. Дата обращения: 17 мая 2022.

[93] . Internet Archive. Дата обращения: 17 мая 2022.

[94] . Internet Archive. Дата обращения: 17 мая 2022.

[95] Will Pritchard. . The Vinyl Factory (18 августа 2017). Дата обращения: 16 июня 2021. 7 ноября 2017 года.

[96] Kait Sanchez. . The Verge (26 апреля 2021). Дата обращения: 12 июня 2021. 25 мая 2021 года.

[97] Dani Deahl. . The Verge (12 августа 2017). Дата обращения: 12 июня 2021. 12 июля 2021 года.

[98] Jake Coyle. . Taiwan News. Дата обращения: 16 июня 2021. 28 октября 2021 года.

[99] Verge Staff. . The Verge (13 апреля 2021). Дата обращения: 16 июня 2021. 20 апреля 2021 года.

[100] . Internet Archive. Дата обращения: 16 июня 2021.

[101] Bob Jacobs, Paul Hickman. . NASA. Дата обращения: 16 июня 2021. 28 августа 2021 года.

[102] Leo Kelion. . BBC News (29 августа 2014). Дата обращения: 16 июня 2021. 5 августа 2021 года.

[103] Василий Парфенов. . Популярная Механика (17 октября 2019). Дата обращения: 12 июня 2021. 28 октября 2021 года.

[104] Александр Абрамов. . SpB IT (23 ноября 2020). Дата обращения: 12 июня 2021. 28 января 2021 года.

[105] Ian Carlos Campbell. . The Verge (19 ноября 2020). Дата обращения: 12 июня 2021. 20 ноября 2020 года.

[106] . N+1 (15 февраля 2016). Дата обращения: 12 июня 2021. 28 октября 2021 года.

[_d2746b621b802629-107] .

[108] Constance Grady. . Vox (2 апреля 2020). Дата обращения: 12 июня 2021. 4 апреля 2020 года.

[_9d1c8bfb84872dc0-109] , с. 17—24.

[_9f4a48d648c331fa-110] .

[111] . International Internet Preservation Consortium (8 декабря 2020). Дата обращения: 17 июня 2021. 4 июля 2021 года.

[112] . International Internet Preservation Consortium (26 июня 2020). Дата обращения: 17 июня 2021. 4 июля 2021 года.

[113] . Archive It. Дата обращения: 17 июня 2021. 2 июля 2021 года.

[_07505da7fd27c83b-114] .

[_2277190e88c6341c-115] .

[_51c0be4ed016935b-116] .

[_f3c8ac60e401c456-117] , с. 875.

[118] Jeffrey Brainard. . Science (8 сентября 2020). Дата обращения: 1 июня 2021. 15 октября 2020 года.

[119] Diana Kwon. . Nature (10 сентября 2020). Дата обращения: 1 июня 2021. 3 октября 2020 года.

[120] avouner. . Хабр (10 сентября 2020). Дата обращения: 5 июня 2021. 29 октября 2021 года.

[121] Lisa M. Bowman. . CNet (24 сентября 2002). Дата обращения: 10 июня 2021. Архивировано 15 мая 2012 года.

[122] Ernest Miller. . LawMeme (24 сентября 2002). Дата обращения: 10 июня 2021. Архивировано 16 ноября 2012 года.

[123] Дмитрий Кинский. . Мир Фантастики (3 апреля 2020). Дата обращения: 12 июня 2021. 4 ноября 2021 года.

[124] . Ведомости (2 июня 2020). Дата обращения: 12 июня 2021. 30 июня 2021 года.

[125] . CNews (2 июня 2020). Дата обращения: 12 июня 2021. 1 сентября 2021 года.

[126] Kim Lyons. . The Verge (14 июня 2020). Дата обращения: 12 июня 2021. 9 июля 2021 года.

[127] Elizabeth A. Harris. . New York Times (1 июня 2020). Дата обращения: 13 июня 2021.

[128] Andrew Albanese. . Publishers Weekly (1 сентября 2020). Дата обращения: 18 июня 2021. 8 сентября 2020 года.

[129] Anna Lovine. . Mashable (25 марта 2023). Дата обращения: 4 апреля 2023. 6 апреля 2023 года.

[130] Paul Hill. . NeoWin (25 марта 2023). Дата обращения: 4 апреля 2023. 2 апреля 2023 года.

[131] Jay Peters and Sean Hollister. . The Verge (23 мая 2023). Дата обращения: 7 апреля 2023. 25 марта 2023 года.

[132] . Time (31 марта 2023). Дата обращения: 7 апреля 2023. 7 апреля 2023 года.

[133] . Meduza (25 октября 2014). Дата обращения: 18 июня 2021. 15 июня 2021 года.

[134] Георгий Перемитин. . РБК (25 июня 2015). Дата обращения: 12 июня 2021. 21 августа 2021 года.

[135] . Москва 24 (1 сентября 2015). Дата обращения: 12 июня 2021. 27 ноября 2021 года.

[136] Дмитрий Шестоперов, Анастасия Евтушенко. . Газета.ru (18 апреля 2016). Дата обращения: 13 июня 2021. 3 мая 2021 года.

[137] . Kaz Pravda (21 октября 2015). Дата обращения: 18 июня 2021. 3 октября 2021 года.

[138] Наталия Козина. . Kloop (18 июля 2017). Дата обращения: 12 июня 2021. 28 июня 2021 года.

[139] . C News (23 августа 2019). Дата обращения: 12 июня 2021. 24 июня 2021 года.

[140] . РБК (12 мая 2022). Дата обращения: 13 мая 2022. 12 мая 2022 года.

[141] . Интерфакс (12 мая 2022). Дата обращения: 17 мая 2022. 16 мая 2022 года.

[142] Валерий Романов. . газета.ru (29 июня 2022). Дата обращения: 1 июля 2022. 1 июля 2022 года.

[143] . Daily News (10 октября 2016). Дата обращения: 18 июня 2021. 14 апреля 2021 года.

[144] . Nag (16 августа 2017). Дата обращения: 12 июня 2021. 29 октября 2021 года.

[145] Colm Gorey. . Silicon Republic (9 августа 2017). Дата обращения: 18 июня 2021. 2 марта 2021 года.

[146] Leo Kelion. . BBC. Дата обращения: 18 июня 2021. 6 августа 2018 года.

История

Создание

1997—1999-й год

2000—2010 годы

2010—2020-е

Пандемия COVID-19 и борьба с дезинформацией

Хранение

Веб-архивирование

Wayback Machine

Archive It

Human Rights Web Archive

Захвати Уолл-стрит

Книжная коллекция

Open Content Alliance

Open Library

Медиа

Аудио

Фото

Видео и игры

Операционные системы

Авторское право

Контролируемая цифровая выдача

Веб-архивирование

Влияние

Правовые споры и блокировки

Церковь Саентологии

National Emergency Library

См. также

Примечания

Литература

Ссылки

Same as Архив Интернета

Архив Интернета

Архив Интернета

Архив Интернета

Список стран по числу пользователей Интернета

Общество защиты интернета

Институт развития интернета

Зал славы Интернета

Поставщик услуг беспроводного интернета

Безопасность интернета вещей

Всемирный день безопасного Интернета

Институт развития интернета

Инженерный совет Интернета

Инженерный совет Интернета

Зал славы Интернета

История Интернета

Инженерный совет Интернета

Зал славы Интернета

Зал славы интернета 2012

Зал славы интернета 2013

Список стран по скорости Интернета

Совет по архитектуре Интернета

Общество Интернета

Зал славы Интернета