Просмотр старых версий веб-сайтов: взгляд на Wayback Machine и две альтернативы

Интернет вечен — в этом уверены многие. Но это отнюдь не так для отдельных веб-сайтов. Почему ваш сайт падает, и все его содержимое теряется? Или вы хотели зайти на любимый сайт, а он сегодня просто не работает? Некоторые также могут искать пост, который они читали несколько дней назад, но теперь его совершенно невозможно найти — так что существует множество возможных причин, по которым вы хотите найти старые сайты. Но удалить — значит исчезнуть навсегда! Или нет?

Даже если оригинальная страница была удалена, есть способ найти ее содержимое снова, потому что некоторые организации создают образы старых интернет-сайтов. С помощью современных технологий они постоянно собирают снимки, а затем бесплатно предоставляют их пользователям Интернета. Самым известным проектом такого рода является Wayback Machine. Эта служба проекта Internet Archive архивирует большие части общедоступной всемирной паутины — и делает это с 1996 года. Далее мы объясним принцип работы Wayback Machine, а также представим две альтернативы, с помощью которых вы также можете просматривать веб-сайты прошлого.

Содержание

Проект «Архив Интернета»: Старые интернет-сайты, фотографии, видео и тексты
Просмотр не только веб-сайтов прошлого — что еще может предложить Интернет-архив
Найти старые версии веб-сайтов: Причины для архивирования
Учебник по Wayback Machine: поиск старых версий веб-сайтов за 3 шага
Просматривайте веб-сайты прошлого позже благодаря функции самоснимков
Загрузчик Wayback Machine для восстановления старых веб-страниц
Альтернатива 1: Найти сайты, которые не так стары — с помощью поиска Google
Альтернатива 2: Поиск ссылок на старые веб-сайты с помощью WebCite

Проект «Архив Интернета»: Старые интернет-сайты, фотографии, видео и тексты

Брюстер Кале продал свою первую собственную компанию, поисковую службу WAIS, компании AOL в 1992 году за 15 миллионов долларов. На эти деньги он основал новую компанию и некоммерческую организацию. Этой компанией стала Alexa-Internet, которую он продал Amazon.com несколько лет спустя за внушительную сумму в 250 миллионов долларов. В результате в его распоряжении оказалось еще больше финансовых ресурсов, несколько миллионов из которых он вложил в свой некоммерческий проект — Архив Интернета.

В рамках этого проекта была также разработана так называемая Wayback Machine. Это веб-архив, в котором можно найти скриншоты старых домашних страниц за разные периоды времени. На следующем рисунке вы можете увидеть, например, как выглядела домашняя страница Facebook (тогда еще «Thefacebook») 12 февраля 2004 года — через восемь дней после того, как сайт впервые появился в Интернете.

Как следует из названия, проект Internet Archives зародился как веб-архив. Когда Брюстер Кале впервые создал архив в 1996 году, он использовал данные своего интернет-проекта Alexa, который собирал информацию о посещаемости сайтов с доменов по всему Интернету. Сейчас Alexa предлагается компанией Amazon в качестве услуги маркетингового анализа. Первоначально для интернет-архива приоритет отдавался популярным сайтам. Однако, согласно исследованию журнала Forbes от 2015 года, количество снимков сайта на archive.org (сайт проекта) не всегда коррелирует с рангом Alexa или частотой обновления домена. Поэтому пока что мы остаемся в неведении относительно того, какие именно методы отбора использует проект.

Просмотр не только веб-сайтов прошлого — что еще может предложить Интернет-архив

За свою двадцатилетнюю историю Интернет-архив достиг многого. Архив веб-сайтов превратился в огромную виртуальную библиотеку. Согласно собственной информации, в 2015 году archive.org использовал для хранения индивидуального контента 18,5 петабайт (всего 50 петабайт, то есть 50 триллионов байт) и с тех пор еженедельно увеличивал объем на несколько терабайт. Согласно последним исследованиям, через Wayback Machine можно получить доступ примерно к 327 миллиардам старых версий веб-сайтов. Кроме того, проект собирает:

Тексты и книги (около 16 миллионов)
аудиозаписи (около 4,4 миллиона, включая 189 000 записей концертов)
Видеозаписи и телепередачи (около 5,8 миллионов, из которых около 1,6 миллионов — записи новостей)
Изображения (около 3,1 миллиона)
Программное обеспечение (около 209 000)

(Обновлено: апрель 2018 г.)

Большая часть контента поступает из университетов, правительственных организаций, таких как NASA, из проектов по оцифровке текстов, таких как Project Gutenberg или Arvix, а также из коллекций фильмов и аудиозаписей, таких как Prelinger Collection, или архива живой музыки Etree.

Брюстер Кейл — сетевой активист, который выступает не только за свободный Интернет, но и вообще за свободный доступ к знаниям. Он был одним из самых популярных противников так называемого «закона о защите Микки Мауса» (фактическое название — «закон о продлении срока действия авторского права»), который был поддержан компанией Disney. Этот закон привел к продлению срока действия авторского права в Штатах. Отныне произведения защищены авторским правом на срок до 70 лет (а не — как раньше — 50 лет) после смерти автора или создателя. По мнению Кале, от такой продолжительности прав собственности выиграют только самые богатые компании, в то время как произведения не смогут быть использованы широкой публикой.

В 2007 году штат Калифорния официально признал Архив Интернета библиотекой. Один из многочисленных компьютерных центров, где хранятся резервные копии архива, расположен в Александрийской библиотеке, недавно открытой в 2002 году под патронажем ЮНЕСКО.

Дочерний сайт archive-it.org работает с многочисленными научными организациями, которые хотят сохранить свои коллекции в цифровом виде.

Найти старые версии веб-сайтов: Причины для архивирования

Интернет постоянно меняется. Более быстрая передача данных создает новые сервисы, в то время как другие устаревают и забываются. Новая информация часто заменяет старую или устаревшую, особенно на новостных порталах и других актуальных веб-сайтах. Чем старше статьи и веб-страницы, тем меньше вероятность того, что они будут видны. Тем не менее, пользователи часто хотят иметь возможность просматривать прошлые версии веб-сайта. Желание найти старую версию сайта может быть вызвано чистой ностальгией. Например, если вы спросите себя, что вы написали в своем профиле Myspace в далеком прошлом. Однако есть и экономические или юридические причины для поиска старых версий сайтов:

Ваш сайт неожиданно отключился: Возможно, служба хостинга испытывает технические проблемы, или деньги за ежемесячную плату не были переведены. Возможно, вы сможете найти утраченный контент в архиве веб-страниц.
Вы журналист, блогер или ученый, работающий над статьей: Самый быстрый способ найти важные источники — это интернет. Однако если страницы источников, на которые вы ссылаетесь, изменятся, ваши читатели не смогут найти нужную им информацию, или используемые вами цитаты перестанут соответствовать содержанию страницы со ссылкой. Если вы цитируете источник со снимком и временной меткой, ваши читатели всегда смогут отследить источник.
Вы используете SEO и используете ссылочную мощь старых доменов: Кроме того, вы можете использовать архивные инструменты для удаления некорректных ссылок или корректировки изменений страниц. Некоторые SEO-эксперты улучшают свое ранжирование с помощью архивированного контента в частных сетях блогов.
Вам нужны юридические доказательства: Когда речь идет об оскорблениях или угрозах в сети, скриншоты помогают задокументировать личные нападки. Если тексты уже удалены автором, просто используйте более раннюю версию сайта для сбора доказательств. Кроме того, документирование рабочих процессов с помощью архива может быть полезно в патентных спорах.

Учебник по Wayback Machine: поиск старых версий веб-сайтов за 3 шага

У вас есть веб-сайт, и вам не хватает резервной копии? Спасите потерянный контент, найдя скриншоты старой домашней страницы через archive.org. Старые версии веб-сайтов можно найти всего за три шага.

Факт

Снимок — это всегда снимок чего-то в определенный момент времени. Он описывает текущее состояние систем или объектов — например, веб-сайта. Связи между областями сохраняются, но система не меняет своего состояния. Поэтому на archive.org можно перемещаться по старым веб-страницам, но динамические элементы, такие как формы, теряют свою функцию на скриншоте.

Введите archive.org в строке поиска. Wayback Machine предоставляет три возможности для просмотра старых версий веб-сайтов:

Введите URL, который вы хотите найти, непосредственно в верхнюю строку поиска Wayback Machine, как показано на изображении ниже. Нажмите клавишу Enter, чтобы перейти непосредственно к странице результатов.
Нажмите на желтый значок веб-страницы, чтобы перейти на главную страницу Wayback. Там вы можете ввести URL-адрес домена или попробовать другие функции. Чтобы получить доступ к архивному сайту, введите URL-адрес и нажмите «Просмотреть историю».
Введите поисковый запрос в строке поиска ниже и выберите «поиск архивных веб-сайтов». Нажмите «перейти», чтобы увидеть список доменов и описаний сайтов, содержащих поисковый запрос. Отдельные записи показывают имя домена, описание и количество снимков за определенный период. Вы также получите информацию о количестве захваченного медиаконтента. Щелкните на нужном вам результате.

На главной странице для введенного вами URL (gutenberg.org в примере ниже) вы увидите временную шкалу. Она образует нижнюю ось диаграммы, в которой каждой дате присвоен черный столбец. Высота каждого столбца на гистограмме показывает, как часто краулеры Wayback Machine сканировали домен в эту дату. Если столбец не виден, значит, в этот день скриншоты вообще не делались. Например, в 2007 году было очень мало снимков в месяц. Заметный пробел указывает на то, что в ноябре не было сделано ни одного снимка. Размер кружков в календарном листе показывает, как часто краулеры фиксировали старую интернет-страницу в указанный день. Ключ выглядит следующим образом:

Синий — успешное переползание через веб-страницу
Зеленый — перенаправления
Оранжевый — URL не найден (ошибка 4xx)
Красный — ошибка сервера (ошибка 5xx).

Выберите день, когда старая веб-страница была записана на скриншоте. Записи существуют только для дней с цветным кружком. Щелкните непосредственно на дате, чтобы увидеть снимок страницы. Если вы удерживаете указатель мыши над датой, появляются различные временные метки (как показано на рисунке ниже) — они показывают точное время, когда был сделан снимок.

Щелкнув по метке времени, вы перейдете к снимку экрана архивного сайта, который показывает, как выглядел сайт в указанное время. Например, временная метка 19:38:40 (оранжевая) вызывает ошибку 403, а временная метка 21:54:09 отображает всю страницу.

Внутри архивного сайта вы перемещаетесь, как обычно, по ссылкам на подстраницы. Тексты можно легко копировать. Если вы также хотите сохранить макет и дизайн, можно сделать скриншоты.

Факт

Название Wayback Machine навеяно американским мультфильмом 60-х годов. Персонажи мистер Пибоди и Шерман в «Невероятной истории мистера Пибоди» путешествуют с помощью машины времени по истории, которую они называют «WABAC-Machine».

Опции «summary of…» и «site map of…» (на верхнем рисунке прямо над временной шкалой) предлагают больше возможностей. Сводка показывает, сколько файлов кода, изображений и флэш-файлов нашли краулеры. Карта сайта, с другой стороны, отображает весь домен в виде круга. Круговой участок обозначает веб-страницу, на которую можно перейти одним щелчком мыши.

Просматривайте веб-сайты прошлого позже благодаря функции самоснимков

Вы ведете веб-сайт или блог или публикуете свои работы через третьих лиц? Тогда вы можете использовать Wayback Machine для резервного копирования своего контента. Алгоритм Wayback не охватывает автоматически весь интернет. Есть несколько причин, по которым archive.org не архивирует некоторые веб-страницы или не отображает определенное содержимое:

Оператор сайта не разрешает индексировать сайт. (Команда: noindex).
В файле robots.txt указано, что сайт или его части не должны индексироваться.
Сайт защищен паролем.
Оператор сайта лично попросил удалить сайт из архива.
Динамические элементы составляют большую часть страницы, и они отображаются некорректно.

Итак, если вы хотите поместить свой сайт в архив, вы должны убедиться, что архивные краулеры смогут прочитать домен. Чтобы сделать это, ознакомьтесь со следующим руководством:

Снова зайдите на главную страницу Wayback-Machine (показано ниже). Полоса прокрутки показывает вам сайт в прошлом, который может быть интересен посетителям. Ниже вы найдете полезные инструменты, службу подписки для научных учреждений и инструмент Save-Page-Now.

Если вы хотите сделать снимок веб-сайта, вам достаточно знать URL-адрес домена. Введите его в поле ввода «Сохранить страницу сейчас». Достаточно указать адрес домена в простой форме. Для примера на рисунке ниже это будет: «douglasadams.com».
Перед загружаемым сайтом появится небольшое окно «сохранить страницу сейчас…». По завершении процесса вы увидите снимок вашего сайта. Теперь вы обеспечили сохранность всего содержимого и ссылок на будущее.

Совет

Поскольку архивные краулеры часто не знают маленькие сайты, небольшим, менее известным сайтам стоит регулярно делать снимки самостоятельно.

Загрузчик Wayback Machine для восстановления старых веб-страниц

С помощью Wayback Machine вы сможете получить доступ к старым веб-страницам, которые больше не доступны по их предыдущему URL. Таким образом, вы сможете, по крайней мере, найти и сохранить текстовое содержимое нужной вам страницы. Но иногда вам нужно нечто большее, чем просто текст старой статьи. Иногда проблема более серьезная. Возможно, страница больше не существует, и резервное копирование тоже не помогает. Возможно, вы хотите загрузить весь сайт, чтобы отредактировать или сохранить исходный код, отфильтровать неработающие ссылки или протестировать старую версию сайта для SEO-оптимизации. Все это возможно с помощью Wayback-Machine-Downloader.

Существует загрузчик с открытым исходным кодом, а именно Wayback Machine Downloader на GitHub. Сначала вам нужно установить Ruby. Но вам не нужно быть профессионалом в Ruby, чтобы использовать программу. Разработчики перечисляют наиболее важные команды кода прямо на странице загрузки. Введите нужный URL, и программа загрузит соответствующие файлы на ваш компьютер. Программа автоматически создает страницы index.html, совместимые с Apache и NGINX. Опытные пользователи могут более детально определить настройки для временных меток, фильтров URL и моментальных снимков.

Веб-инструмент Archivarix подходит для небольших веб-сайтов или блогов благодаря четко структурированному пользовательскому интерфейсу. Услуга бесплатна, если она используется для сайтов с менее чем 200 файлами, в противном случае она платная. Чтобы воспользоваться Archivarix, необходимо зарегистрироваться. Затем просто введите желаемый домен и несколькими щелчками мыши определите параметры оптимизации и структуры ссылок. Затем введите адрес электронной почты. Если загрузка архива с Интернет-сайта завершена, Archivarix отправляет zip-файл на этот адрес.

Archive.org сам не предлагает загрузчик веб-сайтов. Однако, как член библиотеки, т.е. вошедший в систему пользователь, миллионы текстов, изображений и аудиофайлов доступны для скачивания. Если вы владеете правами на что-либо, вы можете загрузить это для публичного некоммерческого использования, как это делает NASA с большей частью своих аудио- и визуальных материалов. Например, следующее видео, снятое МКС, архивировано как общее произведение по лицензии Creative Commons.

Команда проекта «Открытая библиотека» стремится как можно полнее классифицировать книги. Она также позволяет пользователям брать многие книги — некоторые из которых размещены у третьих лиц — на две недели. В отдельной категории вы найдете электронные книги и тексты из Архива Интернета. Как правило, их можно скачать бесплатно.

Цитата

Это не так уж и дорого. За стоимость 60 миль шоссе мы можем иметь электронную библиотеку на 10 миллионов книг, доступную поколению, которое растет, читая с экрана. Наша задача — сделать так, чтобы лучшие произведения человечества были доступны этому поколению». Брюстер Кейл: Как Google угрожает книгам, Вашингтон Пост, 5/2009 г.

Альтернатива 1: Найти сайты, которые не так стары — с помощью поиска Google

Информация, которую вы ищете, не такая уж и старая? Тогда вам может помочь простой поиск в Google: Подобно Wayback Machine, Google использует краулеры для сканирования и индексации веб-сайтов. Для этого Google делает снимок всего сайта. Если он изменился с момента последнего сканирования, Google кэширует снимок старой версии веб-страницы. Новый снимок служит в качестве текущего предварительного просмотра. Если живой сайт выйдет из строя на короткое время, узких мест не возникнет, поскольку в кэше все еще есть версия. Таким образом, существует только одна временная метка кэшированной страницы. Однако она может быть более актуальной, чем снимок интернет-архива. Если на archive.org нет старой версии сайта этого домена, то Google может быть даже единственным способом найти снимок сайта.

Чтобы посмотреть последнюю версию сайта, просто введите его в качестве поискового запроса в Google. URL-адрес должен появиться под названием страницы в списке результатов. Если вы нажмете на стрелку справа, появится небольшое выпадающее меню (как показано на рисунке ниже). Если вы нажмете на «в кэше», Google загрузит для вас сайт в версии до его последнего обновления.

Иногда случается так, что текущая версия страницы не отображается в списке результатов Google. Это может произойти, если операторы сайта установили домен на «noindex». Это означает, что поисковая система не должна включать страницу в свою коллекцию. Однако вы все равно можете найти старую версию сайта в кэше. Если вы хотите посетить старую версию сайта, но не можете найти ее в результатах поиска, введите в адресную строку следующее:

http://webcache.googleusercontent.com/search?q=cache:https://www.DOMAIN.com

В приведенном выше примере «DOMAIN.com» — это место для искомого URL. На изображении ниже показана кэш-версия archive.org, поскольку Google сделал снимок сайта 24 апреля 2018 года. Обратите внимание, что даже снимки Google по большей части не отображают динамические элементы и медиаконтент.

Альтернатива 2: Поиск ссылок на старые веб-сайты с помощью WebCite

Журналисты, блогеры и ученые все чаще используют онлайн-источники. И точно так же, как вы перечисляете свои источники в библиографии для научных печатных изданий, многие онлайн-тексты также содержат ссылки. Обычно они представлены в виде ссылок, которые ведут непосредственно на используемый интернет-источник. Однако, поскольку веб-страницы могут меняться или удаляться из сети, существует риск, что эти ссылки больше не будут вести на соответствующие тексты. Если читатели перейдут по устаревшей ссылке, они могут увидеть нечто совершенно отличное от того, что автор исследовал в то время. Чтобы предотвратить это, организация WebCite® предлагает услугу архивирования. Это позволяет сохранять источники в виде моментальных снимков и генерировать исходную информацию, которую читатели могут использовать в то же время. С помощью целевой ссылки или идентификатора моментального снимка они могут непосредственно просмотреть источник.

Как архивировать источники с помощью WebCite:

На главной странице WebCite, непосредственно под доменным именем, вы найдете главное меню. Выберите вкладку «Расческа».
Появится форма для архивирования («archive form»). Если ваш документ уже размещен в Интернете, введите URL-адрес — как показано на рисунке ниже — в первое поле поиска («URL to comb for links»). Если текст еще не загружен, но ссылки уже существуют, просто загрузите файл. Для этого нажмите на кнопку «browse». Введите свой адрес электронной почты, и WebCite позже пришлет вам список URL архивных снимков. Нажмите на «причесать этот URL».

После короткого ожидания на сайте появится список возможных ссылок. Выберите источники, установив флажок рядом с ними. Нажмите на кнопку «Cache these URLs» в конце списка.
Теперь в окне появится сообщение о том, что ваши источники находятся в очереди на архивирование. Помимо оригинальной ссылки, вы также получите ссылку на снимок. Просто включите ее в ссылку на ваш источник. Это позволит вашим читателям получить доступ к той же версии источника, которую вы использовали в своей работе — даже спустя годы, когда старого сайта уже не существует.

Совет

Если вы публикуете свои тексты на платформе с большим количеством исходящих ссылок, краулеры WebCite будут включать их в свой выбор. Поэтому этот список быстро становится неуправляемым. В этом случае мы рекомендуем загружать документ непосредственно с жесткого диска.

Если вы хотите архивировать только один источник или свою собственную работу, просто используйте для этого инструмент архива. Для этого нажмите на вкладку «архивы» в главном меню. В форме для единичных источников введите URL-адрес источника, который необходимо процитировать, а также адрес вашей электронной почты и язык архивирования. Когда вы заполните метаданные (название, автор и т.д.), WebCite создаст ссылку. Если метаданные уже существуют на веб-странице, программа также может добавить их. Нажмите на кнопку «Отправить». После этого вы получите электронное письмо со ссылкой на снимок и источник.

Это позволит вам указать старую веб-страницу в качестве неизменного источника:

Нажмите на вкладку «поиск» в главном меню. Откроется форма поиска.
Для прямого поиска старых версий веб-сайтов введите URL-адрес домена в первое поле ввода (рядом с «URL для поиска моментальных снимков»), как показано на рисунке ниже. Ниже введите метку времени в формате YYYYYMM (Y=Year, M=Month). Если этого не сделать, то при нажатии на кнопку «поиск» вы будете направлены на кэшированный домен, но заголовок WebCite, с помощью которого можно переходить между временными метками, будет отсутствовать.
Вместо поиска по URL можно указать непосредственно идентификатор моментального снимка, чтобы перейти к версии веб-сайта, сохраненной в определенное время.

Сводка

Те, кто уже тщетно искал старую версию сайта, по достоинству оценят представленные инструменты. Wayback Machine, вероятно, является наиболее полным архивом веб-сайтов. Его удобный интерфейс позволяет даже неопытным пользователям легко просматривать или архивировать веб-сайты в прошлом. Если вы ищете недавно потерянные веб-страницы, вам поможет кэш Google. WebCite, с другой стороны, полагается на процесс проверки перед добавлением веб-страниц в архив. Этот сервис очень хорошо подходит для академических текстов, в которых требуются полные ссылки на источники.