API, чтобы разбить голос на фонемы/синтезировать новые речевые речевые образцы?

Вы знаете те фильмы, в которых технические разработчики записывают кого-то голос, а их программное обеспечение разбивает его на фонемы? Что они могут затем использовать для ввода какой-либо фразы и заставить его выглядеть так, как будто цель говорит это?

Существует ли это программное обеспечение в версии API? Я даже не знаю, что для Google.

Ответ 1

Нет такого программного обеспечения. Нарушение произвольной речи в ее составные фонемы - это только частично разрешенная проблема: речь-текст по-прежнему несовершенна, а текста в речь.

Идея состоит в воспроизведении timbre целевого голоса. Даже если бы вы могли идеально сегментировать звук, переупорядочение фонем создавало бы звук с неестественным каденцией и интонацией, не говоря уже о сращивании артефактов. В этот момент вы получаете возможность сглаживания, масштабирования по времени и корректировки высоты тона, все из которых возможны и понятны в теории, но плохо работают с реальными данными, особенно если рассматриваемая аудиокамера является такой же короткой, как и одной фонемой, а затем, когда тембр необходимо сохранить.

Эти проблемы усугубляются на фонетической стороне с помощью аллофонического изменения звуков, основанных на акценте и окружающих фонемах; для того, чтобы точно воспроизводить даже низкокачественную аппроксимацию звука, вам нужно детальное понимание языка целевого языка, акцента и речи.

Кроме того, ваша конечная проблема - одна из социальной инженерии, и людям нелегко обмануть, когда речь заходит о голосах людей, которых они знают. Даже с большим корпусом входных данных, в лучшем случае, вы могли бы получить короткий низкокачественный образец, который едва ли можно было бы поговорить.

Так что, хотя это возможно, это сложно; даже если бы он существовал, он не всегда был бы достаточно хорошим.

Ответ 2

SRI International (компания, создавшая Siri для iOS) имеет SDK под названием EduSpeak, который будет принимать аудио вход и разбивать его на отдельные фонемы. Я знаю это, потому что неделю назад я просидел демо-версию продукта. Во время демонстрации ведущий показал нам приложение, которое было создано с помощью SDK. Приложение предоставило несколько строк текста для чтения презентатором. После прочтения текста приложение отобразило гистограмму, в которой каждая полоса представляла собой фонему из его речи. Высота каждого бара представляла собой оценку того, насколько ярко выражена каждая фонема (ведущий не был носителем английского языка, поэтому он получил более низкие баллы по некоторым фонемам по сравнению с другими). Ведущий может также щелкнуть по каждому отдельному бару, чтобы воспроизводить только эту отдельную фонему с использованием оригинального звука.

Итак, есть программное обеспечение, которое делит аудио вверх на фонему, и это очень хорошо работает. Теперь, вопрос о том, могут ли эти фонемы быть повторно собраны в речь, является открытым вопросом. Если мы получим пробную версию SDK, я попробую и дам вам знать.

Ответ 3

Если ваша цель - подражать кому-то другому, тогда другое отношение - преобразовать свой собственный голос (вместо того, чтобы собирать фонемы). Это (неожиданно) называется преобразованием голоса, например http://www.busim.ee.boun.edu.tr/~speech/projects/Voice_Conversion.htm

Ответ 4

Технология называется "синтез голоса" и "распознавание голоса"

API Java для этого можно найти здесь Java voice JSAPI

У Apple есть API для Apple, речь

В Microsoft есть несколько... здесь обсуждается речь в Vista

Ответ 5

Вы можете получить интересные эффекты для деформирования голоса с помощью формантного тонального сдвига. Adobe Audition имеет довольно хорошую реализацию. Antares создает несколько интересных вокальных эффектов VST-плагинов.

Эти методы используют некоторую форму линейного предсказательного кодирования (LPC) для обработки голоса в качестве модели источника-фильтра. LPC работает на речевых сигналах, оценивая резонанс голосового тракта (формант), изменяя его эффект с помощью обратного фильтра, а затем кодируя полученный остаточный сигнал. Остаточный сигнал идеально представляет собой импульсную последовательность, которая представляет собой глоттальный импульс. Это позволяет масштабировать смолу и форманты независимо, что приводит к значительно лучшему результату преобразования пола, чем простому сдвигу тона.

Ответ 6

Я не знаю коммерчески доступного решения, но концепция не полностью выходит за пределы возможностей. Например, Университет штата Делавэр имеет достаточно приличное программное обеспечение для этого.

http://www.modeltalker.com

Ответ 7

Lyrebird - это запуск, который работает над этой самой проблемой. Учитывая образцы голоса человека и некоторый письменный текст, он может синтезировать устный вариант этого письменного текста в голосе человека в образцах.