У Chrome есть встроенное распознавание речи для входных элементов "x-webkit-speech"?

Мне интересно, как

<input type="text" x-webkit-speech speech />

Есть ли встроенный в Chrome способ распознавания речи, или он обращается к базовому устройству распознавания речи в операционной системе?

Ответ 1

Yup, Chrome распознает распознавание речи через серверы Google. Но нет причин, по которым другие браузеры не могли бы реализовать его по-разному (например, используя средство распознавания речи в ОС).

Балу, ваша ссылка на самом деле немного устарела. Последнее предложение Google можно найти здесь: http://www.w3.org/2005/Incubator/htmlspeech/2010/10/google-api-draft.html

Хотя распознавание речи доступно в канале Chrome dev в течение некоторого времени, оно еще не отправлено, и мы еще не уверены, когда он будет отправлен. Мы определенно хотим, чтобы люди играли с API и предлагали отзывы об этом, но мы не думаем, что он готов к прайм-тайм еще.

Ответ 2

В соответствии с кодом он отправляет аудиоданные в виде запроса POST:

https://www.google.com/speech-api/v1/recognize?client=chromium&lang=??&lm=??&xhw=??&maxresults=3

lm - grammar в коде, xhw - hardware_info, который является необязательным в соответствии с комментарием. Звук выглядит как speex, x-speex-with-header-byte:

// Encode the frame and place the size of the frame as the first byte. This
// is the packet format for MIME type x-speex-with-header-byte.

Похоже, было бы довольно тривиально модифицировать хром-код для использования в вашем собственном приложении.

Update:

Вам также нужно получить ключ API распознавания речи, и они ограничены 50 запросами в день. Невозможно увеличить этот предел - даже не заплатив.

Ответ 3

Они используют свой собственный API для распознавания речи. Пример: отправка почтового запроса на серверы.

Ответ 4

Существует экспериментальная версия speexenc, которая может кодировать бинарный формат MIME в формате x-speex-with-header-byte, ссылается на QXIP Wiki и доступен на GitHub. Отличается ли задание, помещая размер кадра в качестве первого байта пакетов.

Ответ 5

Распознавание речи - это предложение Google. https://docs.google.com/View?id=dcfg79pz_5dhnp23f5

Функция поставляется с Chrome 8+, и похоже, что она отправляет данные на серверы google для фактического распознавания.

Ответ 6

Эта функция теперь работает на бета-версии chrome 11.

проверьте это.

http://slides.html5rocks.com/#speech-input

Ответ 7

Это может представлять интерес https://github.com/taf2/speech2text ruby bindings для google speech to text API

Ответ 8

Да, у Chrome есть встроенная поддержка речи через WebKit; просто взгляните на главную страницу Google (у которой теперь есть микрофон справа от окна поиска). Интересно, однако, если команда Chrome работает над поддержкой речи Omnibox. В конце концов, Chrome - это браузер на основе WebKit!

Ответ 9

Существует также рабочая группа, которая произвела http://www.w3.org/TR/xhtml+voice/, но я не верю, что это реализовано в любом браузере, кроме Opera.

Ответ 10

Я только что подтвердил это на своем Chrome Cr-48, он работает.