Аудиоанализ для выявления человеческого голоса, пола, возраста и эмоций - любая предварительная работа с открытым исходным кодом?

Есть ли предварительная работа с открытым исходным кодом в области "Анализ звука" для обнаружения человеческого голоса (скажем, несмотря на некоторый фоновый шум), определить пол оператора, возможно, определить нет. ораторов, возраст ораторов (ов) и эмоции ораторов?

Моя догадка заключается в том, что программное обеспечение для распознавания речи, такое как CMU Sphinx, может стать хорошим местом для начала, но если там что-то лучше, было бы здорово.

Ответ 1

Я аспирант, занимающийся исследованиями распознавания речи. Это открытые исследовательские проблемы, и, к сожалению, я не знаю о пакетах с открытым исходным кодом, которые могут делать все это из коробки.

Если у вас есть некоторый опыт в реализации алгоритмов обработки сигналов или машинного обучения, вы можете попытаться найти научные статьи, используя некоторые из этих условий поиска:

идентификация пола (иногда называемая гендерным признанием): прогнозирование пола говорящего из речевого высказывания
возрастная идентификация: прогнозирование возраста говорящего
идентификация динамиков: прогнозирование, из набора возможных динамиков, наиболее вероятный оратор в речевом произношении
проверка динамика: принятие или отклонение высказывания как принадлежащего оратору (представьте себе систему авторизации типа "голос-запись" )
дирижающая динамика: запись аудиофайла с несколькими файлами и маркировка, какие сегменты речи принадлежат динамику
распознавание эмоций: предсказание эмоции спикера из речевого высказывания (очень новая область исследований).

Согласно http://cmusphinx.sourceforge.net/sphinx4/doc/Sphinx4-faq.html#speaker_identification, CMU Sphinx, который, вероятно, является ведущим распознавателем речи с открытым исходным кодом, не поддерживает идентификацию колонок (http://cmusphinx.sourceforge.net/sphinx4/doc/Sphinx4-faq.html#speaker_identification); Я сомневаюсь, что у него есть другие возможности, описанные выше.

Некоторые академические исследователи публикуют свой код в Интернете и/или могут захотеть поделиться им с вами. Поиск Google Scholar показывает много людей, которые написали магистерские или докторские диссертации, используя Sphinx, так что это может быть хорошим местом для начала.

Наконец, вы можете попытаться реализовать очень грубый алгоритм распознавания полов без попадания в само распознаватель речи, если вы знаете немного обработки сигнала. В основном, мужские и женские голоса отличаются своей основной частотой - согласно Википедии (http://en.wikipedia.org/wiki/Voice_frequency), мужские голоса составляют 85-180 Гц, а женщины голоса - 165 Гц-255 Гц. Вы можете использовать что-то вроде sox для определения частотного спектра (используя что-то, называемое быстрым преобразованием Фурье) высказывания и классифицировать речь как "мужскую" или "женскую" в зависимости от некоторой статистической статистики, такой как средняя частота (см. http://classicalconvert.com/tag/sox/). Чтобы сделать эту работу надежной (т.е. Со многими динамиками, микрофонами или средами записи), есть много вещей, которые вы можете сделать. Я не уверен, могу ли я предсказать, сколько времени и усилий потребуется для получения 70% -ной точности, поскольку это будет зависеть от характера вашей задачи; мой смысл в том, что 90% + определенно будут очень тяжелыми.

Удачи!

Ответ 2

Нелегко извлечь информацию низкого уровня, такую как шаг и мощность, используя CMU Sphinx 4 (хотя у более старой версии может быть возможность). Я бы предложил вам использовать Праат. Вы можете писать сценарии для извлечения тонального тона и каждого форманта в голосе динамика. Честно говоря, язык сценариев Praat ужасен, но он быстро делает много вещей, которые в противном случае занимали бы много времени. Многие скрипты Praat также публикуются в Интернете. См. http://www.fon.hum.uva.nl/praat/.

Ответ 3

Для вашей речи/неречевой классификации и диаризационного вопроса (определите количество ораторов и когда они говорят): есть инструментарий с открытым исходным кодом, который может это сделать (автоматически, поэтому будут ошибки в выходе курса). Взгляните на это сообщение:

fooobar.com/info/215041/...