AI Video Summary: 2. Как работать с веб-архивом
Channel: Archivarix Support
TL;DR
Подробная инструкция по использованию Wayback Machine (web.archive.org) для поиска и анализа архивных копий сайтов, включая разбор инструментов анализа и особенностей сохранения данных.
Key Points
- — Общее представление о Wayback Machine: история создания и типы сохраняемых файлов (HTML, PDF, медиафайлы и т.д.).
- — Работа с календарем сохранений: значение цветов (синий — OK, зеленый — редирект, красный — ошибка).
- — Разбор понятия таймстемпа: объяснение того, что время сохранения относится к конкретному URL, а не ко всему сайту или странице целиком.
- — Инструмент Summary: анализ графиков индексации и определение общего количества уникальных URL (new URLs) для восстановления.
- — Использование URL Explorer для детального списка всех проиндексированных страниц с датами первой и последней копий.
- — Лайфхак с использованием звездочки (*) в поиске для отображения всех файлов внутри конкретной папки сайта.
- — Обзор инструмента Sitemap: визуализация структуры сайта и поиск периодов, когда индексация страниц прекратилась.
Detailed Summary
Видео представляет собой руководство по работе с веб-архивом Wayback Machine (web.archive.org). Автор объясняет, что сервис сохраняет не только HTML-код, но и различные медиафайлы, стили и документы, что позволяет восстановить облик сайта в его первоначальном виде. Особое внимание уделяется работе с календарем захватов: синий цвет означает успешный ответ сервера (код 200), зеленый — перенаправление, а красный — ошибки доступа или отсутствие страницы. Важнейшим моментом является разбор концепции таймстемпов. Автор предостерегает пользователей от распространенной ошибки: таймстемп указывает время сохранения конкретного URL-адреса. Поскольку картинки и скрипты на странице имеют свои собственные URL, они могут быть сохранены в разное время, что критично при полном восстановлении сайта. В видео детально рассматриваются три дополнительных инструмента анализа: 1. Summary — позволяет увидеть общую динамику индексации и примерное количество уникальных страниц (new URLs), доступных для восстановления. 2. URL Explorer — предоставляет таблицу всех найденных ссылок с информацией о датах индексации и типах файлов. Автор делится лайфхаком: добавление символа «*» в конце пути в строке поиска позволяет вывести список всех URL в определенной папке. 3. Sitemap — визуализирует иерархическую структуру сайта в виде графа, помогая определить, в какой период сайт был наиболее полно проиндексирован или когда на нем появились ошибки и редиректы.
Tags: веб-архив, wayback machine, инструкция, восстановление сайта, сео, поиск информации, archivarix