Об Archivarix Tube Search
Archivarix Tube Search — независимый исследовательский и архивный инструмент, предоставляющий поисковый интерфейс для публично архивированных метаданных видео YouTube. Наша миссия — поддержка цифровой сохранности, академических исследований и общественного интереса путём обеспечения доступа к исторически архивированным веб-данным.
Как это работает
Интернет постоянно меняется. Веб-страницы, включая страницы видео YouTube, регулярно захватываются и сохраняются публичными инициативами веб-архивирования, такими как Internet Archive (Wayback Machine) и Common Crawl. Когда видео YouTube становится недоступным по любой причине, метаданные, ранее захваченные этими архивами — включая названия, описания, даты загрузки и текстовые субтитры — могут оставаться доступными через их публичные API и наборы данных. Archivarix Tube Search агрегирует и индексирует эти публично архивированные данные для обеспечения поиска.
Возможности
- Поиск по URL канала YouTube, @handle или Channel ID для просмотра проиндексированных метаданных видео
- Обнаружение архивных метаданных для видео, которые больше не доступны на YouTube
- Доступ к текстовым субтитрам, сохранённым в публичных веб-архивах
- Проверка доступности видеофайлов, сохранённых Wayback Machine
- Полнотекстовый поиск по проиндексированным названиям, описаниям и тексту субтитров
- Генерация AI-субтитров через распознавание речи для видео без архивных субтитров — включая удалённые видео с сохранившейся аудиодорожкой
- Генерация AI-саммари (TL;DR, ключевые тезисы с таймкодами, развёрнутое описание, теги тем) из любой расшифровки — работает и для удалённых видео
- Генерация стенограмм — полных структурированных диалогов с метками спикеров для интервью, подкастов, лекций и панелей — доступно и для удалённых видео
AI-инструменты
Помимо поиска по архивам, Tube Search умеет извлекать дополнительную пользу из того, что сохранилось:
- AI-субтитры. Если у видео нет архивных субтитров, но доступна аудиодорожка (живое видео или сохранённый файл), автоматическое распознавание речи расшифровывает её в текст. Полученные субтитры сохраняются рядом с архивными и попадают в полнотекстовый поиск.
- AI-саммари. Структурированное резюме — TL;DR, ключевые тезисы с таймкодами, развёрнутое описание, теги тем — построенное на основе расшифровки. Поскольку саммари строится из текста, оно работает и для уже удалённых с YouTube видео — пока расшифровка есть в нашем индексе.
- Стенограммы. Полный диалог, восстановленный из расшифровки и оформленный с метками спикеров для удобного чтения. Полезно для интервью, подкастов, лекций и панелей. Как и саммари, стенограммы работают для удалённых видео, если расшифровка сохранилась.
Источники данных
Все данные, представленные Сервисом, получены из публично доступных источников: Wayback Machine CDX API (Internet Archive), открытый набор данных Common Crawl и исследовательский набор YouTube Metadata 2019. Мы не осуществляем скрейпинг или краулинг YouTube с целью сбора данных. Миниатюры и текст субтитров извлекаются из архивных снимков, хранящихся в сторонних архивах. Все видео содержат прямые ссылки на их оригинальную страницу YouTube.
Не аффилирован с YouTube
Archivarix Tube Search не аффилирован, не одобрен и не связан с YouTube, Google LLC или любыми их дочерними компаниями. YouTube является зарегистрированным товарным знаком Google LLC. Данный Сервис является независимым инструментом, индексирующим публично архивированные данные.
Удаление контента
Если вы являетесь правообладателем и считаете, что метаданные, отображаемые на данном Сервисе, нарушают ваши права, пожалуйста, свяжитесь с нами по указанным ниже контактам. Мы поддерживаем процедуру удаления контента и оперативно реагируем на обоснованные запросы. Подробности см. в Условиях использования.
Создано Archivarix
Этот проект разработан командой Archivarix, известной своими инструментами для восстановления и работы с архивным веб-контентом. Посетите archivarix.com для информации о других проектах.