Как посмотреть старые обновления на сайтах
Перейти к содержимому

Как посмотреть старые обновления на сайтах

  • автор:

Как узнать историю сайта и восстановить его из веб-архива

Как узнать историю сайта и восстановить его из веб-архива

История сайтов полезна вебмастерам при покупке доменов, чтобы вычислить возраст, узнать важные показатели и отделить хорошие от плохих. Ведь фильтры и баны в прошлом напрямую влияют на продвижение сайта в будущем. Поэтому стоит покупать новые домены либо домены с положительной историей.

1. Зачем нужна история сайта

Хронография домена зачастую выдаёт информацию о нём с момента создания. Виртуальные архивы сайтов также дают возможность узнать:

  • сколько времени существует домен;
  • как выглядел сайт раньше, вплоть до конкретной даты;
  • тематику сайта в прошлом;
  • наличие банов, фильтров, санкций в прошлом, действуют ли они сейчас;
  • количество владельцев ресурса;
  • другие домены в пределах сервера, на котором был сайт.

При помощи архивных данных, которые хранятся в интернет-архивах, можно восстановить информацию, которая была утеряна, и посмотреть, как сайт выглядел раньше. Например, если при обновлении баз данных либо смене шаблона сайт перестал работать, можно восстановить сайт из веб-архива по дате и скопировать оттуда старые тексты.

Бывает и так: анализ трафика показал, что при прошлом дизайне сайт приносил больше прибыли. Сравнение текущей и прошлой версий одного ресурса позволяет сделать соответствующие выводы и улучшить работу.

В отличие от старых доменов, новые всегда обладают чистой историей, ведь у них не было владельцев, и они не были зарегистрированы как сайты. Такие домены покупают, не боясь столкнуться с фильтрами и другими проблемами. Однако многие вебмастера предпочитают покупать готовые сайты с рук или на аукционах. Причина здесь одна: старый домен с хорошей историей легче продвинуть в поиске, чем начинать оптимизацию с чистого листа.

При покупке старого сайта нужно тщательно проверять его прошлое. Важно, чтобы на сайте не было ворованного контента, запрещённых тематик и банов по причине любых нарушений.

Чтобы убедиться, что вы покупаете не кота в мешке, вы можете пройтись по нашему чеклисту «Как проверить сайт перед покупкой».

2. Принципы работы веб-архивов

Веб-архивы время от времени посещают открытые к доступу сайты. При одном таком посещении автоматически создаются точные копии страниц, которые сохраняются на сервере архива. Под каждой копией отмечается дата. Дальше любой пользователь может восстановить нужную версию сайта через календарь.

2.1. Инструменты для проверки истории сайта, и как ими пользоваться

2.1.1. Webarchive

Самый крупный ресурс, на котором хранится история большинства сайтов, — Webarchive. Иногда этот сервис называют машиной времени сайтов или Wayback Machine. Здесь можно посмотреть даже историю тех ресурсов, которые давно прекратили существование.

Как узнать историю сайта с помощью Webarchive

Чтобы проверить состояние домена, нужно ввести его в строку поиска и нажать Enter. Сервис выдаст информацию о сайте с момента его первой регистрации. В нижней части страницы отображается календарь с кликабельными датами. После нажатия на число архив покажет версию сайта, которая была актуальна в тот день.

Как узнать историю сайта с помощью Webarchive

Синим цветом отмечены даты сохранения копий страниц сайта, зелёным — версии с редиректами. С помощью стрелок вверху можно проследить историю изменения сайта по хронологии.

Как узнать историю сайта с помощью Webarchive

Бывает, что история сайта недоступна. Этому есть несколько причин:

  • в файле robots.txt есть запрет на архивацию данных,
  • владелец домена удалил сохраненные версии сайта,
  • сайт был закрыт из-за нарушений прав собственности.

Чтобы запретить архивацию сайта, можно прописать в robots.txt директиву на запрет сохранения копий:

После этого никто не сумеет восстановить страницы вашего сайта в будущем. Но и вы сами не сможете сделать это, если потребуется.

Если в Webarchive нет интересующего вас сайта, вы можете сами добавить его в сервис, сохранив актуальную копию любой страницы сайта. Для этого нужно ввести её текущий адрес и нажать «Save page».

Как добавить сайт в сервис Webarchive

Этот сервис также может быть полезен, когда необходимо восстановить неработающий сайт через инструмент RoboTools c большой базой уникальных текстов. Например, домен выставлен на продажу, а в его истории сохранены страницы с хорошими текстами. Так как сайта уже не существует — его страницы не индексируются. Поэтому старые тексты можно использовать для наполнения нового проекта.

2.1.2. Whois

Еще один инструмент для проверки доменных имён — Whois. С его помощью можно узнать:

  • занят ли домен,
  • был ли он забанен,
  • количество регистраций,
  • название и локацию серверов,
  • дату основания и другую информацию.

Для этого нужно ввести URL в строку поиска.

Как узнать историю сайта в сервисе whois

После анализа сайта при нажатии на стрелку в разделе «Dates» открывается более подробная информация о домене.

Как узнать историю сайта в сервисе Whois

  1. Загрузите список доменов в программу.
  2. Отметьте нужные пункты из чекбоксов «Wayback Machine» и «Whois».

Как проверить историю сайтов с помощью Netpeak Checker

Как проверить историю сайтов с помощью Netpeak Checker

Тянуть данные из сервисов и делать массовую проверку URL вы можете даже в бесплатной версии Netpeak Checker без ограничений по времени и количеству URL, в которой также доступно много других базовых функций.

Чтобы начать пользоваться бесплатным Netpeak Checker, просто зарегистрируйтесь, скачайте и установите программу — и вперёд! 😉

P.S. Сразу после регистрации у вас также будет возможность потестировать весь платный функционал, а затем сравнить все наши тарифы и выбрать для себя подходящий.

3. Как восстановить сайт из веб-архива

Для восстановления сайта из веб-архива используется сервис Аrchivarix.

Как восстановить историю сайта с помощью сервиса Аrchivarix

После введения информации появляется уведомление с подтверждением. Здесь же виден скриншот сайта и данные о нём. Параллельно на почту приходит письмо с архивными данными для восстановления. Остаётся загрузить эти файлы на сервер и проверить работоспособность сайта.

Подводим итоги

Посмотреть историю сайта можно при помощи веб-архивов — сервисов, которые создают копии страниц в разные периоды времени. Даже если сайт прекращает существование, информация о его предыдущих версиях может оставаться в открытом доступе.

Самым популярным сайтом для просмотра и восстановления истории считается Wayback Machine. В нём хранятся все данные о домене с момента его создания. Если нажать на определенную дату в календаре, можно посмотреть, как выглядел сайт в тот день.

Дополнительно вы можете сохранить текущую версию сайта, восстановить неработающий домен и проверить, был ли он когда-то использован. Также узнать информацию о сайте можно при помощи сервисов Whois, Whoishistory и аналогов.

А вы пользуетесь этими сервисами? Для каких задач? Поделитесь в комментариях &#128522

Internet Archive. Как использовать самую крупную библиотеку Сети, которая помнит все

Некоммерческий проект Internet Archive появился в 1996 году как идея американского программиста и предпринимателя Брюстера Кейла — собирать и хранить цифровое наследие Интернета. Книги, лекции, кинофильмы, компьютерные игры, веб-сайты. Буквально все.

Краткая история Internet Archive

Проект не был похож на голливудскую американскую мечту типа «талантливые юнцы с горящими глазами с помощью Бога и напильника творят будущее в дядином гараже». Выпускник MIT Брюстер Кейл подошел к задаче основательно. Первую половину 90-х он потратил на разработку и раскрутку сетевой поисковой системы WAIS. Это был прообраз современных поисковиков вроде Google. В 1996 году Кейл продал WAIS America Online (будущей AOL) и часть прибыли вложил в новый проект Internet Archive.

Сейчас это звучит, как шутка, но в первой версии «архива Интернета» информацию хранили на магнитных лентах. Это было самое дешевое решение для больших объемов данных. Но проект быстро развивался, и в 1998-1999 годах Кейл уже сотрудничал с Microsoft и Netscape Corporation, чей Netscape Navigator был самым популярным браузером в мире. Вскоре Internet Archive перешел с ленты на жесткие диски. В 2001 году появился сервис Wayback Machine для публичного доступа к сохраненным копиям веб-страниц. В 2004 году Internet Archive обзавелся передовыми RAID-хранилищами Petabox. Серверы проекта появились в Амстердаме и Александрии (Египет).

В 2006 году Internet Archive открыл виртуальную библиотеку Open Library. Проект получил официальный статус библиотеки по законодательству штата Калифорния. На май 2022 года в Open Library было собрано более 35 миллионов книг и прочих текстов. Читатели могут получить материалы по принципу «контролируемой цифровой выдачи». Виртуальная библиотека ведет себя, как обычная библиотека в реальном мире. Книги выдаются по запросу на ограниченное время — до двух недель. У каждой книги есть определенное число копий. Если все копии «на руках», пользователь попадает в список ожидания. Впрочем, «контролируемая цифровая выдача» не служит для Open Library стопроцентной защитой от атак поборников копирайта.

Основной канал пополнения библиотеки — пожертвования, в том числе от офлайновых библиотек. Пользователь может предложить и свой материал.

Как читать книги в цифровой библиотеке

Виртуальная библиотека находится по адресу: openlibrary.org. Без регистрации вы сможете разве что просматривать обложки и аннотации книг. Поэтому лучше завести бесплатный аккаунт, понадобится только email. Впоследствии можно сменить имя, пароль и некоторые другие настройки. Двухфакторной аутентификации, к сожалению, нет.

Можно просто бродить по библиотеке, но лучше воспользоваться поиском. В Open Library быстро понимаешь, что изданий на русском языке сравнительно мало, а отыскать их бывает нелегко, поэтому библиотека скорее доставит удовольствие тем, кто читает по-английски. Классика находится в свободном доступе. Это преимущественно старые книги, которых уже не оберегают издатели, авторы и их наследники. У таких книг есть кнопка «Читать» («Read»). Щелкните — и книга откроется прямо в браузере (формат BookReader). Перелистывание пожелтевших страниц «Собаки Баскервилей» лондонского издания 1902 года и впрямь напомнило общение с реальной книгой. Можно послушать, как ее читает цифровой голос. Интонации и паузы сбиваются, да и как можно передать атмосферу викторианской Англии на современном американском английском, хоть бы и в трех вариантах? Книги можно скачивать в форматах ePub, MOBI, PDF, в виде обычного текста и в специальном формате DAISY для людей с ослабленным зрением.

Собака Баскервилей

«Собака Баскервилей», издание 1902 года в библиотеке Internet Archive. Скриншот.

Большинство изданий доступно по кнопке «Borrow» (на русский она почему-то переведена как «Занять»). По умолчанию книга открывается на час. Этого достаточно, чтобы пробежаться по тексту глазами и понять, правильный ли выбор вы сделали. Если хотите, можете «взять почитать» книгу на 14 дней. Вернуть книгу в библиотеку можно в любой момент, щелкнув по кнопке «Return now».

Изображения, аудио и видео

Internet Archive содержит огромную коллекцию изображений — более 4,3 млн. Что вы ищете? Вот яркие, жизнерадостные фотографии птиц, а вот космические снимки супертелескопа «Хаббл» или коллекция полотен основоположника немецкого романтизма Каспара Давида Фридриха.

Аудиораздел тоже велик, и это не только музыка (привет борцу с пиратами Ларсу Ульриху), но и аудиокниги, лекции, подкасты. Для интересующихся историей — полная версия вдохновляющей речи Уинстона Черчилля 4 июня 1940 года в Палате общин британского парламента («Мы будем сражаться на побережьях…»).

В разделе видео более 8 миллионов сюжетов — от кота Гарфилда до «Ночи живых мертвецов» 1968 года и передач Russia Today.

Для настоящих ценителей ретро предусмотрен раздел «Sotware». Где еще усталый отец семейства может вернуться в детство среди героев Doom, Duke Nukem и Wolfenstein 3D? Немало здесь и «винтажного» программного обеспечения. Одна из коллекций так и называется — «Старые добрые деньки». Microsoft Windows 3.11, Norton Commander, Borland C++…

Что под капотом у Wayback Machine

Особый интерес представляет интерфейс поиска по сохраненным копиям веб-сайтов. Wayback Machine можно условно перевести как «Машина времени», хотя перемещается эта машина только в прошлое. По состоянию на июль 2022 года в архиве Wayback Machine находилось более 700 млрд веб-страниц.

Такой внушительный массив данных накапливался не один год. Для скачивания страниц Wayback Machine использует поисковых роботов. Иногда их называют веб-краулерами (от английского «to crawl», ползать). Робот посещает сайт, обходит его страницу за страницей по гиперссылкам и скачивает материалы для архива. Правда, на запароленную страницу робот зайти не может. Изначально создатели Wayback Machine предусматривали, что робот будет делать «снимок» каждого сайта раз в два месяца. Сейчас алгоритм более сложный и зависит от сайта. Раскрученным и активно обновляемым ресурсам отдается предпочтение. В день робот может сделать несколько «снимков» одного сайта. К примеру, сайт итальянской газеты Corriere della Serra существует 24 года. За это время роботы посещали его примерно 62 000 раз.

Пользоваться Wayback Machine очень просто. Зайдите на сайт https://web.archive.org/. В небольшом окне укажите адрес (URL) интересующего вас ресурса без префиксов — просто yourdomain.org. Если сайт есть в архиве, вы увидите календарь. В нем подсвечены дни, когда сервис Wayback Machine делал свой снимок. Щелкните по нужной дате, чтобы увидеть сохраненную копию сайта.

База IMDB образца 2002 года

База кинофильмов IMDB 2002 года. «Братство кольца» снова доступно на VHS! Скриншот.

Нельзя сказать, чтобы Wayback Machine всегда и стопроцентно работал на совесть. Бывает, что робот посещает не все страницы. Сталкиваясь с непонятными для него скриптами, он не скачивает разные графические элементы, и тогда копия сайта выглядит неполной и поврежденной, а переходы по гиперссылкам могут не работать.

Владелец сайта может не только добавить свой ресурс в архив Wayback Machine, но и удалить его. Это делается по запросу. Если владелец сайта вообще не хочет, чтобы Wayback Machine индексировал его ресурс, он может отредактировать текстовый файл robots.txt в главной папке сайта. Тогда роботы Wayback Machine будут обходить сайт стороной.

Пример удачного сотрудничества разработчиков — применение Wayback Machine в браузере Brave. Когда пользователь попадает на страницу сайта, которой фактически нет, Brave предлагает посмотреть, есть ли сохраненная копия на archive.org.

Социальная роль Wayback Machine

Материалы Wayback Machine используются юристами разных стран в качестве доказательств. Примерами могут служить споры об авторском праве, когда нужно установить время появления на сайте того или иного материала. Бывали и другие задачи, например, в одном судебном процессе требовалось доказать, что цена на лекарство на сайте изменилась. В целом, о применении цифровых архивов в юриспруденции можно прочесть в этом материале.

Сначала суды на родине Wayback Machine, в Соединенных Штатах, были настроены консервативно. Так, в 1999 году техасский судья в деле St. Clair v. Johnny’s Oyster & Shrimp, Inc. назвал доказательства из Интернета «информацией вуду» и оценил их как ничтожные. По мнению судьи, раз информация в сети постоянно меняется, а хакеры способны изменить любую страницу в сети из любой точки мира, на такие данные нельзя ссылаться в судебном процессе. Однако со временем отношение изменилось. В 2016-2020 годах несколько судов США вынесли решения о допустимости использования материалов Wayback Machinе как доказательства.

Журналисты активно используют Wayback Machine в расследованиях. Пример такой задачи — разоблачить политика или коммерсанта, который удалил важную информацию со своего сайта и делает вид, что «так и было». Цифровой архив — очевидная проблема для любителей что-нибудь подправить задним числом. Один из ярких примеров: публикация 2014 года «ВКонтакте» от имени лидера незаконных вооруженных формирований Игоря Гиркина. В ней сообщалось, что 17 июля 2014 года в районе города Торез Донецкой области «ополченцами» был сбит украинский грузовой самолет АН-26. Позже выяснилось, что сбили Boeing-777, рейс MH-17 из Амстердама в Куала-Лумпур с 298 пассажирами на борту. Автор поторопился стереть оригинальное сообщение, но Internet Archive уже все запомнил.

Global Investigative Journalism Network предлагает советы журналистам по использованию Wayback Machine, а о том, как использовать Wayback Machine в маркетинге, рассказано здесь.

Дополнительные возможности Wayback Machine

С помощью опции «Changes» можно выбрать снимки сайта за две разные даты и сравнить их на экране компьютера. Wayback Machine старается подсветить удаленные и добавленные фрагменты. Функция полезна, если вы хотите обнаружить различия между ранними и поздними версиями одной и той же страницы. «Changes» имеет смысл использовать на более-менее статичных страницах. Там, где по смыслу содержание часто обновляется, например, в новостной ленте, эта опция будет бесполезна.

Опция «Collections» показывает распределение собранных «снимков сайта» по группам. Это отчасти объясняет, почему одна страница сайта проиндексирована, а другая нет.

В разделе «Summary» можно наблюдать подробную статистику по сохраненным элементам в рамках одного домена.

«Site Map» — карта сайта. На интерактивных радиальных диаграммах Wayback Machine показывает, как был структурирован конкретный сайт в разные годы.

«URLs» — список «связанных» адресов. Укажите «youdomain.org», и Wayback Machine покажет, какие страницы, включающие «yourdomain.org», были проиндексированы.

Для Chrome и Mozilla Firefox доступно симпатичное и компактное браузерное расширение Wayback Machine. С его помощью можно воспользоваться любой из перечисленных опций, а также посмотреть самую старую и самую свежую сохраненные копии страницы или узнать, кто и сколько раз ссылался на эту страницу в Twitter.

ОВД-Инфо, карта сайта

Карта сайта «ОВД-Инфо». Скриншот.

Wayback Machine и фейки

С помощью «машины времени» можно доказать, что тот или иной сайт действительно распространял заведомо ложную информацию, даже если владелец сайта все подчистил. Wayback Machine иллюстрирует присказку «в Интернете ничего нельзя удалить просто так».

Весной того же 2014 года провластные российские СМИ опубликовали сообщение, что украинские министерства и ведомства спешно удаляют русскоязычные версии своих сайтов. Статья не была подписана. Авторы ссылались на неназванный источник, близкий к властям Украины. Разоблачители фейков использовали Wayback Machine, чтобы доказать отсутствие недавних радикальных изменений на украинских сайтах. По их данным, некоторые из перечисленных сайтов вообще не имели русскоязычных версий.

Wayback Machine не был спроектирован как фактчекинговая платформа. Поэтому в архив наряду с прочим попадали и фейки. Особенно это стало заметно в период пандемии. Правительства разных стран боролись с конспирологическими материалами и критикой вакцинации, однако удаленные материалы снова и снова обнаруживались в интернет-архиве. Дело дошло до того, что администрация Internet Archive сама втянулась в борьбу с «коронафейками».

Давление на «Архив Интернета» в России

В Российской Федерации Internet Archive подвергается давлению с 2014 года. К обвинениям в нарушении авторских прав (их предъявляют и в других странах) добавились требования цензоров. Первые разногласия между библиотекой и цензурой возникли в 2014-2015 годах. Тогда archive.org был впервые заблокирован за материалы об ИГИЛ, запрещенной в РФ террористической организации. Администрация Internet Archive добросовестно старается выполнять требования Роскомнадзора и удаляет запрещенные материалы. Несмотря на это, 28 июня 2022 года Internet Archive все-таки был оштрафован мировым судьей в Москве на 800 000 рублей за ролик о способе изготовления «Коктейля Молотова» и экстремистские материалы по ч. 2 ст. 13.41 КоАП РФ. Екатерина Абашина («Роскомсвобода»), которая представляла в суде интересы Internet Archive, подчеркивала важность ее миссии и благосклонную реакцию библиотеки на все претензии российских властей. В ответ на это судья Тимур Вахрамеев сказал: «Никто не сомневается, что они молодцы. И Wikipedia молодцы. Но у нас вот так».

Последние месяцы показали: аргумент «у нас вот так» распространяется не только на цифровое наследие. В июле 2022 года «Роскомсвобода» писала, что после начала военных действий в Украине российские власти заблокировали более 5300 сайтов. Большинство этих ресурсов, скорее всего, было проиндексировано Wayback Machine. Скорее всего, библиотеку ждут новые штрафы и другие формы преследования.

Выживет ли Internet Archive?

Сейчас объем хранилища библиотеки составляет почти 100 петабайт данных (51,200 не самых емких жестких дисков по 2 терабайта). Расходы на поддержание включают не только покупку носителей данных, но и их работу в серверах, зарплату техническому персоналу, сканирование книг. При этом архив не взимает плату с пользователей, не торгует их данными и не крутит рекламу. Как и в 1996 году, Internet Archive — некоммерческая организация. Она существует во многом благодаря пожертвованиям организаций и частных лиц. Не менее дюжины фондов продолжают оказывать поддержку.

Возможный недостаток денег преодолеть легче, чем «балканизацию Интернета»: правительства стран вроде Ирана, Китая, России борются с проектами наподобие Internet Archive и Wayback Machine. Голоса просветителей, обращенные к читателям, не слышны в пыльных кабинетах авторитарных режимов.

Но если что и способно похоронить достижения энтузиастов цифрового наследия, то это копирайт. Как сказал американский ученый-компьютерщик Майкл Леск о библиотечных изданиях: «Меня пугает ХХ век. Копирайт уже не ограничивает публикации XIX века, а в XXI веке все и так перешли на цифру. Но XX век под угрозой из-за правообладателей».

В эти дни в нью-йоркском суде слушают дело четырех издателей против Internet Archive. В 2020 году Internet Archive на волне пандемии Covid-19 облегчил доступ пользователей к цифровым книгам. Проект получил название National Emergency Library, а когда пандемия пошла на спад, закрылся. Издатели не оценили гуманитарный характер акции Internet Archive и обратились с иском в суд. Hachette Book Group, HarperCollins Publishers, John Wiley & Sons и Penguin Random House заявили, что действия Internet Archive привели к многомиллионным убыткам и стали угрозой для их бизнеса. Правозащитники, разумеется, с этим не согласны. Американская организация сторонников цифровых прав и свобод Electronic Frontier Foundation намерена доказать в суде, что система выдачи книг Internet Archive соответствует практике обычных библиотек и не вредит издателям, а миссия — помогает обществу. Пожелаем им удачи.

Что такое веб-архив и как им пользоваться

Веб-архив — это проект web.archive.org, на котором хранятся разные версии всех сайтов с момента их создания при условии, что нет запрета на сохранение ресурса. Благодаря наличию сохраненных копий в веб-архиве, доступно восстановление сайта даже при отсутствии резервной копии. Также в веб-архиве можно найти интересный контент из закрытых сайтов конкурентов, который активно используют создатели PBN-сеток сайтов.

Что такое веб-архив

Веб-архив сайтов позиционируется как своеобразная бесплатная машина времени, позволяющая вернуться на месяцы или годы назад, чтобы увидеть, как выглядел ресурс на тот момент. При этом у каждого сайта сохраняются многочисленные версии от разных дат, которые зависят от посещений проекта краулерами веб-архива. У популярных сайтов может сохраняться тысячи версий, которые обновлялись ежедневно множество раз на протяжении всего периода существования проекта:

Что такое веб-архив сайта

Веб-архив основан в начале 1996 года и с этого времени в нем сохранено более 330 миллиардов веб-страниц, включая 20 миллионов книг, 4,5 миллионов аудиофайлов и 4 миллиона видео, занимающие свыше тысячи терабайт. Ежедневно сайт посещают миллионы пользователей, и он входит в ТОП-300 самых популярных проектов мира.

Как использовать архив

Веб-архив используют для следующих целей:

  • восстановление собственного сайта, если он был по какой-либо причине утрачен либо поврежден;
  • просмотр старой информации и медиа-контента, которого уже нет на работающих сайтах;
  • анализ изменения выбранного ресурса с течением времени;
  • поиск удаленной уникальной информации, которую затем можно использовать на собственном проекте.

Чтобы просмотреть старые версии нужного сайта, необходимо перейти на сервис веб-архива, указать адрес домена и нажать «BROWSE HISTORY»:

Как использовать архив веб-сайтов

После этого отобразится временная шкала в диапазоне с даты основания ресурса по текущий момент. После клика мышью по году открывается календарь, в котором выбирается желаемая дата. Доступен выбор любой даты, отмеченной зеленым либо голубым кружком. Диаметр круга зависит от количества обращений робота веб-архива к проекту в этот день. Зеленый цвет обозначает редиректы. После выбора даты кликаем на нее для перехода на нужную версию сайта:

После выбора даты кликаем на нее для перехода на нужную версию сайта

В некоторых случаях старые версии сайта могут отсутствовать в веб-архиве. Такое происходит, если правообладатель обратился с требованием удалить копии принадлежащего ему контента либо проект закрыли в связи с нарушением закона о защите интеллектуальной собственности. Бывает также, что разработчики закрыли возможность сканирования сайта роботами веб-архива.

Иногда нужный ресурс доступен, но могут отсутствовать картинки или элементы дизайна, тогда стоит открыть версию сайта, сохраненную в другой день.

Как добавить современную версию сайта в веб-архив

Для уверенности в том, что все нужные версии собственного проекта будут сохранены в веб-архиве, желательно самостоятельно инициировать сканирование сайта. Для этого введем в разделе «Save Page Now» домен сайта и нажмем «Save page»:

Как добавить текущую версию сайта в веб-архив

После этого в архив будет добавлена текущая версия сайта. На всякий случай повторяйте подобную процедуру перед всеми существенными изменениями сайта и после их осуществления.

Как запретить добавление сайта в веб-архив

Чтобы сайт не был доступен в веб-архиве, пропишите запрет в файле robots.txt. Для этого нужно зайти в корневой каталог сайта на панели управления хостинг-провайдера и выбрать редактирование данного файла:

Как запретить добавление сайта в веб-архив

Запрет устанавливается с помощью такого кода:

После этого удалятся существующие версии проекта, а также не будет осуществляться копирование сайта в архив пока домен функционирует и в файле robots.txt присутствуют данные настройки. Когда закончится регистрация доменного имени старые версии сайта вновь станут доступны в веб-архиве.

Восстановление сайта из веб архива

Восстановить удаленный либо взломанный хакерами сайт поможет веб-архив. Восстановление каждой отдельной HTML-страницы проекта слишком трудоемкий процесс, поэтому предпочтительнее использовать специальные программы для парсинга WEB-архива.

Как парсить веб-архив с помощью Robotools

Для скачивания сайта с помощью данного сервиса необходимо выбрать подходящий тариф в зависимости от количества веб-страниц на проекте:

Как использовать парсер веб-архива Robotools

Протестировать работу сервиса можно в демо-версии, после регистрации будет доступно 25 страниц бесплатно:

Протестировать работу сервиса можно в демо-версии, после регистрации будет доступно 25 страниц бесплатно

Перейдем в раздел «Мои задачи», укажем домен, на котором ранее функционировал нужный сайт и нажмем «Запуск»:

укажем домен, на котором ранее функционировал нужный сайт

Затем выбираем «Восстановить домен или снимок из веб-архива»:

Восстановить домен или снимок из веб-архива

После этого выбираем нужную дату, количество страниц, действия с внешними ссылками в статьях и нажимаем «Начать процесс восстановления»:

Начать процесс восстановления

После завершения задачи нажимаем на кнопку для скачивания архива с веб-страницами:

После завершения задачи нажимаем на кнопку для скачивания архива с веб-страницами

Затем нажимаем «Все ОК, собрать ZIP-архив»:

Затем нажимаем «Все ОК, собрать ZIP-архив»

После этого нажимаем «Скачать архив»:

После этого нажимаем «Скачать архив»

В данном примере рассматривалось восстановление сайта на WordPress, получен архив с такими файлами:

В данном примере рассматривалось восстановление сайта на WordPress

Как скачать сайт из веб-архива с помощью Archivarix

Этот сервис также помогает восстановить старые версии сайтов из веб-архива. Цены зависят от количества файлов на проекте. Начнем работу с выбора раздела «Восстановить из веб-архива». Укажем домен и при желании установим временной диапазон, в правой колонке отметим дополнительные параметры восстанавливаемого проекта:

Как скачать сайт из веб-архива с помощью Archivarix

Затем укажем электронный адрес и нажмем «Восстановить»:

Затем укажем электронный адрес и нажмем «Восстановить»

Если сайт содержит более 200 файлов, придет уведомление на почту с предложением оплатить восстановление проекта:

Если сайт содержит более 200 файлов, придет уведомление на почту с предложением оплатить восстановление проекта

Как найти уникальный контент для своего сайта

Часто возникают ситуации, когда проекты по различным причинам закрывают, удаляя сайт с хостинга. При этом на таком ресурсе могут сохраняться полезные и интересные статьи. Через некоторое время они перестают индексироваться поисковыми системами и текст статей становится уникальным. Для владельцев информационных сайтов подобные статьи на нужную тематику представляют интерес.

Такой контент можно добавлять на собственный проект без угрозы каких-либо санкций со стороны поисковых систем, поскольку для них основное значение имеет уникальность контента на текущий момент, а не его первоисточник. Чтобы найти подходящие статьи, сэкономив время и деньги необходимые на создание собственного контента, нужно предварительно узнать список доменов, которые освободились в последнее время.

Зайдем в раздел продающихся доменов на сервисе Reg.ru, выберем категорию, совпадающую с тематикой собственного проекта, например, здоровье:

Как найти уникальный контент для своего сайта

Далее выбираем подкатегорию или просматриваем все предложенные домены, выбирая из них варианты для дальнейшего анализа в веб-архиве:

Далее выбираем подкатегорию или просматриваем все предложенные домены, выбирая из них варианты для дальнейшего анализа в веб-архиве

После того как подходящие статьи найдены в веб-архиве необходимо проверить их на уникальность с помощью сервисов антиплагиата, например, text.ru. Если контент уникален, опубликуйте его на собственном сайте.

Запомнить

  1. Веб-архив — масштабный бесплатный проект, созданный для сохранения всего контента, представленного в интернете, даже после его удаления на исходном сайте.
  2. Веб-архив полезен для анализа сайтов клиентов и конкурентов, отслеживания изменений на собственном проекте, проверки доменов перед покупкой.
  3. Используя данные веб-архива, полученные с помощью онлайн-сервисов, доступно восстановление сайта без бэкапа.
  4. В веб-архиве много контента, в том числе уникальные статьи почти на любую тематику.

Закончил факультет кибернетики. Работал интернет-маркетологом. Не по наслышке знаком с SEO, PPC, таргетингом, ремаркетингом и продвижением сайтов — в течение нескольких лет практиковал на фрилансе. В портфолио есть успешные кейсы. Пробовал создать собственное агентство, но прогорел и решил поменять сферу деятельности. Далеко из профессии не ушел — использовал свои знания и опыт в копирайтинге. С 2016 года работаю редактором и автором текстов в Netpeak Journal.

HackWare.ru

Этичный хакинг и тестирование на проникновение, информационная безопасность

Веб-архивы Интернета: как искать удалённую информацию и восстанавливать сайты

Что такое Wayback Machine и Архивы Интернета

В этой статье мы рассмотрим Веб Архивы сайтов или Интернет архивы: как искать удалённую с сайтов информацию, как скачать больше несуществующие сайты и другие примеры и случаи использования.

Принцип работы всех Интернет Архивов схожий: кто-то (любой пользователь) указывает страницу для сохранения. Интернет Архив скачивает её, в том числе текст, изображения и стили оформления, а затем сохраняет. По запросу сохранённые страницу могут быть просмотрены из Интернет Архива, при этом не имеет значения, если исходная страница изменилась или сайт в данный момент недоступен или вовсе перестал существовать.

Многие Интернет Архивы хранят несколько версий одной и той же страницы, делая её снимок в разное время. Благодаря этому можно проследить историю изменения сайта или веб-страницы в течение всех лет существования.

В этой статье будет показано, как находить удалённую или изменённую информацию, как использовать Интернет Архивы для восстановления сайтов, отдельных страниц или файлов, а также некоторые другие случае использования.

Wayback Machine — это название одного из популярного веб архива сайтов. Иногда Wayback Machine используется как синоним «Интернет Архив».

Какие существуют веб-архивы Интернета

Я знаю о трёх архивах веб-сайтов (если вы знаете больше, то пишите их в комментариях):

  • https://web.archive.org/
  • http://archive.md/ (также использует домены http://archive.ph/ и http://archive.today/)
  • http://web-arhive.ru/

web.archive.org

Этот сервис веб архива ещё известен как Wayback Machine. Имеет разные дополнительные функции, чаще всего используется инструментами по восстановлению сайтов и информации.

Для сохранения страницы в архив перейдите по адресу https://archive.org/web/ введите адрес интересующей вас страницы и нажмите кнопку «SAVE PAGE».

Для просмотра доступных сохранённых версий веб-страницы, перейдите по адресу https://archive.org/web/, введите адрес интересующей вас страницы или домен веб-сайта и нажмите «BROWSE HISTORY»:

В самом верху написано, сколько всего снимком страницы сделано, дата первого и последнего снимка.

Затем идёт шкала времени на которой можно выбрать интересующий год, при выборе года, будет обновляться календарь.

Обратите внимание, что календарь показывает не количество изменений на сайте, а количество раз, когда был сделан архив страницы.

Точки на календаре означают разные события, разные цвета несут разный смысл о веб захвате. Голубой означает, что при архивации страницы от веб-сервера был получен код ответа 2nn (всё хорошо); зелёный означает, что архиватор получил статус 3nn (перенаправление); оранжевый означает, что получен статус 4nn (ошибка на стороне клиента, например, страница не найдена), а красный означает, что при архивации получена ошибка 5nn (проблемы на сервере). Вероятно, чаще всего вас должны интересовать голубые и зелёные точки и ссылки.

При клике на выбранное время, будет открыта ссылка, например, http://web.archive.org/web/20160803222240/https://hackware.ru/ и вам будет показано, как выглядела страница в то время:

Используя эту миниатюру вы сможете переходить к следующему снимку страницы, либо перепрыгнуть к нужной дате:

Лучший способ увидеть все файлы, которые были архивированы для определённого сайта, это открыть ссылку вида http://web.archive.org/*/www.yoursite.com/*, например, http://web.archive.org/*/hackware.ru/

Кроме календаря доступна следующие страницы:

  • Collections — коллекции. Доступны как дополнительные функции для зарегистрированных пользователей и по подписке
  • Changes
  • Summary
  • Site Map

Changes

"Changes" — это инструмент, который вы можете использовать для идентификации и отображения изменений в содержимом заархивированных URL.

Начать вы можете с того, что выберите два различных дня какого-то URL. Для этого кликните на соответствующие точки:

И нажмите кнопку Compare. В результате будут показаны два варианта страницы. Жёлтый цвет показывает удалённый контент, а голубой цвет показывает добавленный контент.

Summary

В этой вкладке статистика о количестве изменений MIME-типов.

Site Map

Как следует из название, здесь показывается диаграмма карты сайта, используя которую вы можете перейти к архиву интересующей вас страницы.

Поиск по Интернет архиву

Если вместо адреса страницы вы введёте что-то другое, то будет выполнен поиск по архивированным сайтам:

Показ страницы на определённую дату

Кроме использования календаря для перехода к нужной дате, вы можете просмотреть страницу на нужную дату используя ссылку следующего вида: http://web.archive.org/web/ГГГГММДДЧЧММСС/АДРЕС_СТРАНИЦЫ/

Обратите внимание, что в строке ГГГГММДДЧЧММСС можно пропустить любое количество конечных цифр.

Если на нужную дату не найдена архивная копия, то будет показана версия на ближайшую имеющуюся дату.

archive.md

Адреса данного Архива Интернета:

  • http://archive.md
  • http://archive.ph/
  • http://archive.today/

На главной странице говорящие за себя поля:

  • Архивировать страницу, которая сейчас онлайн
  • Искать сохранённые страницы

Для поиска по сохранённым страницам можно как указывать конкретный URL, так и домены, например:

  • microsoft.com покажет снимки с хоста microsoft.com
  • *.microsoft.com покажет снимки с хоста microsoft.com и всех его субдоменов (например, www.microsoft.com)
  • http://twitter.com/burgerkingfor покажет архив данного url (поиск чувствителен к регистру)
  • http://twitter.com/burg* поиск архивных url начинающихся с http://twitter.com/burg

Данный сервис сохраняет следующие части страницы:

  • Текстовое содержимое веб страницы
  • Изображения
  • Содержимое фреймов
  • Контент и изображения загруженные или сгенерированные с помощью Javascript на сайтах Web 2.0
  • Скриншоты размером 1024×768 пикселей.

Не сохраняются следующие части веб-страниц:

  • Flash и загружаемый им контент
  • Видео и звуки
  • PDF
  • RSS и другие XML-страницы сохраняются ненадёжно. Большинство из них не сохраняются, или сохраняются как пустые страницы.

Архивируемая страница и все изображения должны быть менее 50 Мегабайт.

Для каждой архивированной страницы создаётся ссылка вида http://archive.is/XXXXX, где XXXXX это уникальный идентификатор страницы. Также к любой сохранённой странице можно получить доступ следующим образом:

  • http://archive.is/2013/http://www.google.de/ — самый новый снимок в 2013 году.
  • http://archive.is/201301/http://www.google.de/ — самый новый снимок в январе 2013.
  • http://archive.is/20130101/http://www.google.de/ — самый новый снимок в течение дня 1 января 2013.

Дату можно продолжить далее, указав часы, минуты и секунды:

  • http://archive.is/2013010103/http://www.google.de/
  • http://archive.is/201301010313/http://www.google.de/
  • http://archive.is/20130101031355/http://www.google.de/

Для улучшения читаемости, год, месяц, день, часы, минуты и секунды могут быть разделены точками, тире или двоеточиями:

  • http://archive.is/2013-04-17/http://blog.bo.lt/
  • http://archive.is/2013.04.17-12:08:20/http://blog.bo.lt/

Также возможно обратиться ко всем снимкам указанного URL:

  • http://archive.is/http://www.google.de/

Все сохранённые страницы домена:

  • http://archive.is/www.google.de

Все сохранённые страницы всех субдоменов

  • http://archive.is/*.google.de

Чтобы обратиться к самой последней версии страницы в архиве или к самой старой, поддерживаются адреса вида:

  • http://archive.is/newest/http://reddit.com/
  • http://archive.is/oldest/http://reddit.com/

Чтобы обратиться к определённой части длинной страницы имеется две опции:

  • добавить хэштег (#) с позицией прокрутки в качество которого число между 0 (вершина страницы) и 100 (низ страницы). Например, http://archive.md/dva4n#95%
  • выбрать текст на страницы и получить URL с хэштегом, указывающим на этот раздел. Например, http://archive.is/FWVL#selection-1493.0-1493.53

В доменах поддерживаются национальные символы:

  • http://archive.is/www.maroñas.com.uy
  • http://archive.is/*.测试

Обратите внимание, что при создании архивной копии страницы архивируемому сайту отправляется IP адрес человека, создающего снимок страницы. Это делается через заголовок X-Forwarded-For для правильного определения вашего региона и показа соответствующего содержимого.

web-arhive.ru

Архив интернет (Web archive) — это бесплатный сервис по поиску архивных копий сайтов. С помощью данного сервиса вы можете проверить внешний вид и содержимое страницы в сети интернет на определённую дату.

На момент написания, этот сервис, вроде бы, нормально не работает («Database Exception (#2002)»). Если у вас есть по нему какие-то новости, то пишите их в комментариях.

Поиск сразу по всем Веб-архивам

Может так случиться, что интересующая страница или файл отсутствует в веб архиве. В этом случае можно попытаться найти интересующую сохранённую страницу в другом Архиве Интернета. Специально для этого я сделал довольно простой сервис, который для введённого адреса даёт ссылки на снимки страницы в рассмотренных трёх архивах.

Что делать, если удалённая страница не сохранена ни в одном из архивов?

Архивы Интернета сохраняют страницы только если какой-то пользователь сделал на это запрос — они не имеют функции обходчиков и ищут новые страницы и ссылки. По этой причине возможно, что интересующая вас страница оказалась удалено до того, как была сохранена в каком-либо веб-архиве.

Тем не менее можно воспользоваться услугами поисковых движков, которые активно ищут новые ссылки и оперативно сохраняют новые страницы. Для показа страницы из кэша Google нужно в поиске Гугла ввести

Если ввести подобный запрос в поиск Google, то сразу будет открыта страница из кэша.

Для просмотра текстовой версии можно использовать ссылку вида:

  • http://webcache.googleusercontent.com/search?q=cache:URL&strip=1&vwsrc=0

Для просмотра исходного кода веб страницы из кэша Google используйте ссылку вида:

  • http://webcache.googleusercontent.com/search?q=cache:URL&strip=0&vwsrc=1

Например, текстовый вид:

Как полностью скачать сайт из веб-архива

Если вы хотите восстановить удалённый сайт, то вам поможет программа Wayback Machine Downloader.

Программа загрузит последнюю версию каждого файла, присутствующего в Архиве Интернета Wayback Machine, и сохранить его в папку вида ./websites/example.com/. Она также пересоздаст структуру директорий и автоматически создаст страницы index.html чтобы скаченный сайт без каких либо изменений можно было бы поместить на веб-сервер Apache или Nginx.

Об установке программы и дополнительных опциях смотрите на странице https://kali.tools/?p=5211

Пример скачивания полной копии сайта suip.biz из веб-архива:

Структура скаченных файлов:

Локальная копия сайта, обратите внимание на провайдера Интернет услуг:

Как скачать все изменения страницы из веб-архива

Если вас интересует не весь сайт, а определённая страница, но при этом вам нужно проследить все изменения на ней, то в этом случае используйте программу Waybackpack.

К примеру для скачивания всех копий главной страницы сайта suip.biz, начиная с даты (—to-date 2017), эти страницы должны быть помещены в папку (-d /home/mial/test), при этом программа должна следовать HTTP редиректам (—follow-redirects):

Чтобы для указанного сайта (hackware.ru) вывести список всех доступных копий в веб-архиве (—list):

Как узнать все страницы сайта, которые сохранены в веб-архиве

Для получения ссылок, которые хранятся в Архиве Интернета, используйте программу waybackurls.

Эта программа извлекает все URL указанного домена, о которых знает Wayback Machine. Это можно использовать для быстрого составления карты сайта.

Чтобы получить список всех страниц о которых знает Wayback Machine для домена suip.biz:

Заключение

Предыдущие три программы рассмотрены совсем кратко. Дополнительную информацию об их установке и об имеющихся опциях вы сможете найти по ссылкам на карточки этих программ.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *