Я ищу алгоритм для определения того, соответствует ли вход аудиосигнала в реальном времени одной из 144 заданных (и удобно различимых) пар фонем.
Предпочтительно самый низкий уровень, который выполняет задание.
Я разрабатываю радикальное/экспериментальное программное обеспечение для музыкального обучения для iPhone/iPad.
Моя музыкальная система состоит из 12 согласных фонем и 12 гласных фонем, продемонстрированных здесь. Это составляет 144 пары фонем. Студент должен спеть правильную пару фонем "laa duu bee" и т.д. В ответ на визуальный стимул.
Я провел много исследований по этому вопросу, похоже, что лучше всего использовать одну из оберток iOS Sphinx (iPhone App > Добавить распознавание голоса? - лучший источник информации, который я нашел). Однако я не вижу, как бы я адаптировал такой пакет, может ли кто-либо, имеющий опыт использования одной из этих технологий, дать базовое изложение шагов, которые потребуются?
Будет ли обучение необходимым для пользователя? Я бы не подумал, что это такая элементарная задача, по сравнению с полными языковыми моделями тысяч слов и гораздо большей и более тонкой базой фонем. Тем не менее, было бы приемлемым (не идеальным), чтобы пользователь обучал 12 пар фонем: {consonant1 + vowel1, consonant2 + vowel2,..., consonant12 + vowel12}. Полные 144 были бы слишком обременительными.
Есть ли более простой подход? Я чувствую, что использование полнофункционального непрерывного распознавателя речи использует кувалду, чтобы взломать орех. Было бы гораздо шире использовать минимальную технологию, которая бы решила проблему.
Так что действительно я ищу для любого программного обеспечения с открытым исходным кодом, которое распознает фонемы.
PS Мне нужно решение, которое работает довольно много в режиме реального времени. поэтому, даже когда они поют записку, во-первых, она мигает, чтобы проиллюстрировать, что она подняла восходящую пару фонем, а затем она светится, чтобы проиллюстрировать, поют ли они правильную ноту примечания.