Подтвердить что ты не робот

Формулировка текста в речь (генерация голоса) и речи-в-текст (распознавание голоса) API?

Имеется ли исчерпывающий список известных API-интерфейсов для настольных компьютеров или браузеров?

4b9b3361

Ответ 1

Я перефразирую и обновляю ответ из распознавания речи на C или Java или PHP?. Это ни в коем случае не является всеобъемлющим, но это может быть началом для вас.


От просмотра этих вопросов в течение нескольких месяцев я видел, как большинство разработчиков выбиралось так:

Пользователи Windows - используют функции System.Speech.Net или Microsoft.Speech и устанавливают бесплатные распознавания, предоставляемые Microsoft. Windows 7 включает в себя полный речевой движок. Другие можно скачать бесплатно. Существует API С++ для тех же движков, что и SAPI. См. http://msdn.microsoft.com/en-us/magazine/cc163663.aspx. или http://msdn.microsoft.com/en-us/library/ms723627(v=vs.85).aspx. Дополнительные сведения о механизмах Microsoft для Windows В чем разница между System.Speech.Recognition и Microsoft.Speech.Recognition?

Лица Linux - у Sphinx есть хорошие результаты. См. http://cmusphinx.sourceforge.net/ и http://cmusphinx.sourceforge.net/wiki/ p >

Коммерческие продукты - Nuance, Loquendo, AT & T, IBM, другие. Каждый из них предоставляет свои собственные SDK и библиотеки для разных языков.

Онлайн-сервис - Nuance, Yapme, ispeech.org, vlingo, другие. Nuance улучшил свою программу разработчика и теперь предоставит вам бесплатный доступ к своим услугам для разработки. Яп (я считаю) недавно был приобретенный Amazon, поэтому мы можем увидеть некоторые изменения там.

Конечно, это также может быть полезно - http://en.wikipedia.org/wiki/List_of_speech_recognition_software

Существует Java-речевой API. См. Javax.speech.recognition в API речи Java http://java.sun.com/products/java-media/speech/forDevelopers/jsapi-guide/Recognition.html. Я считаю, что вам все еще нужно найти механизм речевой почты, который поддерживает этот API. Я не думаю, что Sphinx полностью его поддерживает - http://cmusphinx.sourceforge.net/sphinx4/doc/Sphinx4-faq.html#support_jsapi

Есть много других SO quesitons: Нужны инструменты для распознавания речи и речи для Linux и pyspeech (python) - транскрибировать mp3 файлы?, в котором говорится о http://code.google.com/p/pyspeech/, Вы также можете посмотреть http://code.google.com/p/dragonfly/

Ответ 2

Ведущими поставщиками API текста в речь (генерация голоса) являются YAKiToMe! и iSpeech. YAKiToMe! это тот, который я использую, потому что мне нравится качество их голоса лучше всего, и они наименее дороги (в основном бесплатно). Они поддерживают мужчин и женщин на разных языках. Некоторые из поставщиков голоса, такие как Acapella, Nuance, Loquendo и iVona, имеют приличные голоса, но имеют тенденцию быть дорогими в использовании.

Ответ 3

Вот как вы можете это сделать: Примечание: это api из google, поэтому он работает только в браузере Chrome.

(Смотрите демо-версию и загрузите полный исходный код здесь http://purpledesign.in/blog/?p=33)

определить кнопку

<input id="speech" type="text" speech="speech" x-webkit-speech="x-webkit-speech" onspeechchange="processspeech();" onwebkitspeechchange="processspeech();" />

и определите, что вы хотите сделать в функции в вашем файле javascript

Подобно этому

   function processspeech()
   {
     var speechtext=$("#speech").val();
     var elem = document.getElementById("test");
     elem.value = speechtext;
     var notification="\"<span style=\"color:#F00; text-transform:uppercase;\">"+  speechtext + "</span>\" <br />*Is this what you said???";
    notify(notification);
}

Здесь

<textarea> id="test"></textarea>

Речь написана в текстовой области