Обнаружение, где вокал начинается в песне?

что было бы лучшим способом определить, где начинаются вокалы в песне? Мне просто нужно время для вокала. Крайняя точность не требуется. Скорость важнее.

Приветствуются любые подсказки к документам или алгоритмам (если таковые существуют). Также ищите рекомендации, для которых наилучшим образом подходит рамка/язык.

Ответ 1

* SPOILER: ОТВЕТ НЕ НИЖЕ *

Поскольку я планирую сделать что-то похожее на это, я сделал небольшое исследование самостоятельно по этому вопросу и выяснил, что существуют некоторые точные числовые методы, которые МОГУТ это сделать.

Я перечислил ссылки и позволю вам, как читатель, решить, правильно ли это сделать. Все это связано с извлечением аудио-функции вокала и обнаружением там вокальных функций ARE в аудиоданных.

Вы можете начать здесь, но это нигде не ведет, но может быть полезно увидеть, что вы в:)

http://en.wikipedia.org/wiki/Voice_activity_detection

Затем некоторые статьи о распознавании динамиков:

Здесь есть праймер, который вам нужно знать о извлечении функции mel frequency cepstral coefficients (MFCC).

http://www.speaker-recognition.org/navAlg.html

Затем, например, это:

http://www.iccce.co.in/Papers/ICCCECE358.pdf

Я знаю, что никто из них не ведет прямо к решению вашей проблемы, но по крайней мере вы сможете понять размер монстра, с которым вы будете иметь дело.

EDIT: рамки

Я использую С# для чего-то, связанного с этим, и сначала я использовал собственный алгоритм fft-roll-my-own, а затем перешел в библиотеку ILNumerics, которая использует библиотеку Intel для математики, а позже заменила все это на fftw.

http://ilnumerics.net/ (hm, это было бесплатно за раз)

http://software.intel.com/en-us/articles/intel-mkl/ Intel Math Kernel

http://www.fftw.org/ (простая веб-страница, но производительность BRUTAL)

EDIT: новый двигатель fft

Поскольку я переносил часть своего кода на андроид, у меня был большой опыт работы с человеком, который делал что-то невозможным - библиотека FFT, которая даже быстрее, чем FFTW: FFTS. Мое понимание его магии ограничено, но он использует кодограммы для различных процессорных архитектур и превосходит каждую библиотеку.

Ответ 2

Изучение мощности сигнала не поможет для поп-музыки. Это потому, что современная поп-музыка сильно сжата. Это означает, что компрессоры уровня звука применяются на разных этапах производственного процесса, чтобы сделать песню более громкой. Для получения дополнительной информации см. Термин "громкость войны". Например, обратитесь к песне "фейерверк" Кати Перри. Уровень громкости почти постоянный по всей песне.