Подтвердить что ты не робот

Каков текущий лучший API распознавания речи для ios, чтобы соответствовать нескольким ключевым словам?

Я ищу API для ios (бесплатно в идеале), который позволит сделать некоторые распознавания речи. Я видел несколько сообщений для этого: API распознавания речи iPhone? и механизмы распознавания речи для iOS? и после небольшой перспективы я собрал sdk, который выглядит довольно интересно:

Есть ли какие-то из тех, которые действительно выделяются из толпы и совсем недавно? как они действительно отличаются друг от друга?

4b9b3361

Ответ 1

Если вы хотите отслеживать только несколько ключевых слов, вы не должны искать API распознавания речи или службу. Эта задача называется Keyword Spotting и использует разные алгоритмы, нежели распознавание речи. Распознавание речи пытается найти все слова, которые были сказаны, и из-за этого он потребляет больше ресурсов, чем определение ключевых слов. Поисковик ключевых слов пытается найти несколько выбранных ключевых слов или ключевых фраз. Это проще и дешевле ресурса.

Единственным возможным решением для архивирования этой функциональности является использование пакета с открытым исходным кодом, такого как OpenEars, работающего от Pocketsphinx

http://www.politepix.com/openears

Openears имеет плагин Rejecto, который реализует нечто подобное.

Сам Pocketsphinx недавно реализовал эффективное ключевое слово с открытым исходным кодом, но он еще не попал в Openers. Он доступен только через API-интерфейс pocketsphinx, вам нужно создать поиск kws и задать целевое слово для поиска. Я надеюсь, что скоро эта функция также достигнет OpenEars.

Ответ 2

Nuance предоставляет разработчикам бесплатный доступ (но не для большого объема) - см. http://www.masshightech.com/stories/2011/09/26/daily13-Nuance-tweaks-mobile-dev-program-with-free-access-to-Dragon.html или http://dragonmobile.nuancemobiledeveloper.com/public/index.php?task=home

Услуги Нюанса обычно предлагаются на коммерческой основе и требуют предварительной оплаты и транзакционных сборов. Интересные новости выше - то, что теперь они бесплатно используют доступ к своим услугам для разработчиков. Таким образом, для разработки, тестирования и демонстрации вы, вероятно, можете использовать бесплатные службы Nuance. Однако, в отличие от сервисов Google, которые бесплатны в Android, если ваше приложение имеет тысячи пользователей, вам, вероятно, придется платить за услуги Nuance.

Ответ 3

Мы разрабатываем CeedVocal SDK с 2008 года, он основан на проектах с открытым исходным кодом Julius и FLite.

Вот какой-то контекст: мы хотели сделать наше приложение (Vocalia) для распознавания речи еще в 2008 году и в основном выбрали Julius (не решался с Pocket Sphinx, что тоже хорошо) и оптимизировал его формат файла, чтобы он загружал в 1-2 секунды вместо 20 секунд на оригинальном iPhone. Затем мы послушно обучили наши собственные акустические модели на 6 языках. Мы разработали API и в конечном итоге решили предложить его другим разработчикам в качестве SDK.

CeedVocal поддерживает в основном 2 режима работы:

  • совпадение слов (или небольших фраз)
  • ключевое слово spotting

В первом режиме работы он пытается выровнять входную речь со словом (или фразой) в своем списке допустимого ввода. Это заставляет вход в заранее известное слово, даже если речь - это что-то другое. Точность хорошая. Во втором режиме работы он попытается выбрать одно из своих ключевых слов в поток речи. Это трудный случай, и он может быть менее точным.