API распознавания речи

Мне нужно автоматически расшифровать некоторые короткие MP3 файлы как часть доказательства концепции, над которой я работаю. В настоящее время я просматриваю облачные решения или службы веб-API для отправки MP3 в виде простого HTTP-запроса и получения транскрипции.

Единственное бесплатное решение с открытым исходным кодом, которое я нашел здесь, но демонстрации, похоже, не работают (по крайней мере, не на файлы, которые мне нужно расшифровать). Я нашел некоторые корпоративные решения для центров обработки вызовов, но до сих пор ничего не могу просто интегрировать в проект.

Существуют ли какие-либо службы распознавания речи на веб-сайте? Тот, который способен отфильтровывать небольшой шум, будет плюсом.

Ответ 1

Вот неофициальный метод для доступа к возможностям ASR для Google. Я только что тестировал вчера и все еще работает - вы можете получить выход ASR в стиле JSON со словами и связанную оценку доверия с аудиосигналом FLC, отбираемым на 16 кГц.

Ответ 2

Это может быть хорошим совпадением. Кроме того, их профиль techcrunch ( См. Это) перечисляет конкурентов как: SimulScribe, SpinVox, Vlingo, Nuance, Microsoft, Google Некоторые из этих ссылок могут быть полезны.

Vlingo, Bing и Google имеют распознаватели в облаке, но я не думаю, что они делают их общедоступными. Я считаю, что они доступны только от их авторизованных клиентов.

Для доказательства концепции (и небольшого объема), рассмотрели ли вы просто использование речевых движков на рабочем столе, которые входят в Windows 7? В чем разница между System.Speech.Recognition и Microsoft.Speech.Recognition? может быть полезна. Распознаватели MS-дескрипторов поставляются с грамматикой диктовки, и похоже, что это то, что вам нужно.

Ответ 3

Также вы можете попробовать механизм распознавания речи Windows 7 для создания субтитров. Здесь является инструментом для этого.