Технология идентификации контента Youtube?

Я не уверен, что Youtube - это единственный веб-сайт с этой технологией, но идентификация контента в YT (Content ID) - это в основном технология автоматического выявления и устранения нарушений авторских прав. Вы можете прочитать об этом здесь:

http://www.youtube.com/t/contentid

Хорошо, когда одно из моих видео (содержащее определенную музыкальную дорожку) было помечено и удалено для нарушения авторских прав, я подумал, что [контент-идентификатор sytstem] был, вероятно, немым. Поэтому я сделал несколько экспериментов: ни один из них не обманул фильтр ~

Добавлена серия звуковых сигналов в середине песни
Изменен шаг несколько раз через песню
Несколько раз изменил объем.
Скорректирована скорость
Добавлен звуковой оверлей
Добавлено несколько звуковых эффектов

С другой стороны, я не знаю, какой материал был ложно подобран как защищенный авторским правом. Например, фортепианная версия песни не приведет к ложному срабатыванию цензора.

Я не разбираюсь в том, что мои видео удаляются. Я просто удивлен, насколько эффективна цензура контента. Мне интересно, как алгоритм правильно идентифицирует песню как нарушение авторских прав даже после всех моих попыток обойти ее. Любые попытки прямого совпадения были бы немедленно побеждены, любые алгоритмы с использованием шаблонов заметок, вероятно, будут обмануты звуковыми сигналами и сдвигом основного тона.

Ну, это больше моего любопытства, чем срочный вопрос.

Ответ 1

Pedro Moreno и другие в Google/Youtube работают над этим. Они используют конечные преобразователи для распознавания последовательностей музыкальных телефонных аппаратов, аналогичных фонемам в автоматическом распознавании речи.

Ознакомьтесь с этой статьей:

Евгений Вайнштейн, Педро Дж. Морено; Идентификация музыки с помощью взвешивания Преобразователи конечного состояния, Труды Международного Конференция в области акустики, речи и Обработка сигналов (ICASSP), 2007.

Если вы меняете скорость или высоту во всей песне, я удивляюсь, что эти алгоритмы все еще распознают песню. Но, возможно, они нормализуют высоту и скорость (используя время между ударами), чтобы иметь возможность распознавать покрытые версии, а не только оригинальные. Но неудивительно, что он может игнорировать звуковые сигналы, которые вы добавили, поскольку в вашем звуковом потоке будет достаточно сходства.

(На самом деле алгоритм на основе конечных состояний был бы замечательным для применения к моей библиотеке iTunes, чтобы правильно пометить файлы. Поскольку такие службы, как MusicBrainz полагаются на более или менее точные совпадения хэша вашего аудио и записи в базе данных, тогда как метод преобразователя, по-видимому, более различим с точки зрения распознавания файлов.)

Ответ 1

Ответ 2