Об Archivarix Tube Search

Archivarix Tube Search — независимый исследовательский и архивный инструмент, предоставляющий поисковый интерфейс для публично архивированных метаданных видео YouTube. Наша миссия — поддержка цифровой сохранности, академических исследований и общественного интереса путём обеспечения доступа к исторически архивированным веб-данным.

Как это работает

Интернет постоянно меняется. Веб-страницы, включая страницы видео YouTube, регулярно захватываются и сохраняются публичными инициативами веб-архивирования, такими как Internet Archive (Wayback Machine) и Common Crawl. Когда видео YouTube становится недоступным по любой причине, метаданные, ранее захваченные этими архивами — включая названия, описания, даты загрузки и текстовые субтитры — могут оставаться доступными через их публичные API и наборы данных. Archivarix Tube Search агрегирует и индексирует эти публично архивированные данные для обеспечения поиска.

Возможности

Поиск по URL канала YouTube, @handle или Channel ID для просмотра проиндексированных метаданных видео
Обнаружение архивных метаданных для видео, которые больше не доступны на YouTube
Доступ к текстовым субтитрам, сохранённым в публичных веб-архивах
Проверка доступности видеофайлов, сохранённых Wayback Machine
Полнотекстовый поиск по проиндексированным названиям, описаниям и тексту субтитров
Генерация AI-субтитров через распознавание речи для видео без архивных субтитров — включая удалённые видео с сохранившейся аудиодорожкой
Генерация AI-саммари (TL;DR, ключевые тезисы с таймкодами, развёрнутое описание, теги тем) из любой расшифровки — работает и для удалённых видео
Генерация стенограмм — полных структурированных диалогов с метками спикеров для интервью, подкастов, лекций и панелей — доступно и для удалённых видео

AI-инструменты

Помимо поиска по архивам, Tube Search умеет извлекать дополнительную пользу из того, что сохранилось:

AI-субтитры. Если у видео нет архивных субтитров, но доступна аудиодорожка (живое видео или сохранённый файл), автоматическое распознавание речи расшифровывает её в текст. Полученные субтитры сохраняются рядом с архивными и попадают в полнотекстовый поиск.
AI-саммари. Структурированное резюме — TL;DR, ключевые тезисы с таймкодами, развёрнутое описание, теги тем — построенное на основе расшифровки. Поскольку саммари строится из текста, оно работает и для уже удалённых с YouTube видео — пока расшифровка есть в нашем индексе.
Стенограммы. Полный диалог, восстановленный из расшифровки и оформленный с метками спикеров для удобного чтения. Полезно для интервью, подкастов, лекций и панелей. Как и саммари, стенограммы работают для удалённых видео, если расшифровка сохранилась.

Бесплатные инструменты

Помимо поиска по архивам, у нас есть бесплатные инструменты для повседневных задач на YouTube: покадровый просмотр видео, проверка имени канала, проверка авторских прав на музыку, проверка монетизации, а также генератор и анализатор комментариев на базе AI. Все они собраны на странице Бесплатные инструменты для YouTube.

Источники данных

Все данные, представленные Сервисом, получены из публично доступных источников: Wayback Machine CDX API (Internet Archive), открытый набор данных Common Crawl и исследовательский набор YouTube Metadata 2019. Мы не осуществляем скрейпинг или краулинг YouTube с целью сбора данных. Миниатюры и текст субтитров извлекаются из архивных снимков, хранящихся в сторонних архивах. Все видео содержат прямые ссылки на их оригинальную страницу YouTube.

Не аффилирован с YouTube

Archivarix Tube Search не аффилирован, не одобрен и не связан с YouTube, Google LLC или любыми их дочерними компаниями. YouTube является зарегистрированным товарным знаком Google LLC. Данный Сервис является независимым инструментом, индексирующим публично архивированные данные.

Удаление контента

Если вы являетесь правообладателем и считаете, что метаданные, отображаемые на данном Сервисе, нарушают ваши права, пожалуйста, свяжитесь с нами по указанным ниже контактам. Мы поддерживаем процедуру удаления контента и оперативно реагируем на обоснованные запросы. Подробности см. в Условиях использования.

Создано Archivarix

Этот проект разработан командой Archivarix, известной своими инструментами для восстановления и работы с архивным веб-контентом. Посетите archivarix.com для информации о других проектах.