Мне интересно, как
<input type="text" x-webkit-speech speech />
Есть ли встроенный в Chrome способ распознавания речи, или он обращается к базовому устройству распознавания речи в операционной системе?
Мне интересно, как
<input type="text" x-webkit-speech speech />
Есть ли встроенный в Chrome способ распознавания речи, или он обращается к базовому устройству распознавания речи в операционной системе?
Yup, Chrome распознает распознавание речи через серверы Google. Но нет причин, по которым другие браузеры не могли бы реализовать его по-разному (например, используя средство распознавания речи в ОС).
Балу, ваша ссылка на самом деле немного устарела. Последнее предложение Google можно найти здесь: http://www.w3.org/2005/Incubator/htmlspeech/2010/10/google-api-draft.html
Хотя распознавание речи доступно в канале Chrome dev в течение некоторого времени, оно еще не отправлено, и мы еще не уверены, когда он будет отправлен. Мы определенно хотим, чтобы люди играли с API и предлагали отзывы об этом, но мы не думаем, что он готов к прайм-тайм еще.
В соответствии с кодом он отправляет аудиоданные в виде запроса POST:
https://www.google.com/speech-api/v1/recognize?client=chromium&lang=??&lm=??&xhw=??&maxresults=3
lm
- grammar
в коде, xhw
- hardware_info
, который является необязательным в соответствии с комментарием. Звук выглядит как speex, x-speex-with-header-byte:
// Encode the frame and place the size of the frame as the first byte. This
// is the packet format for MIME type x-speex-with-header-byte.
Похоже, было бы довольно тривиально модифицировать хром-код для использования в вашем собственном приложении.
Update:
Вам также нужно получить ключ API распознавания речи, и они ограничены 50 запросами в день. Невозможно увеличить этот предел - даже не заплатив.
Они используют свой собственный API для распознавания речи. Пример: отправка почтового запроса на серверы.
Существует экспериментальная версия speexenc, которая может кодировать бинарный формат MIME в формате x-speex-with-header-byte, ссылается на QXIP Wiki и доступен на GitHub. Отличается ли задание, помещая размер кадра в качестве первого байта пакетов.
Распознавание речи - это предложение Google. https://docs.google.com/View?id=dcfg79pz_5dhnp23f5
Функция поставляется с Chrome 8+, и похоже, что она отправляет данные на серверы google для фактического распознавания.
Эта функция теперь работает на бета-версии chrome 11.
проверьте это.
Это может представлять интерес https://github.com/taf2/speech2text ruby bindings для google speech to text API
Да, у Chrome есть встроенная поддержка речи через WebKit; просто взгляните на главную страницу Google (у которой теперь есть микрофон справа от окна поиска). Интересно, однако, если команда Chrome работает над поддержкой речи Omnibox. В конце концов, Chrome - это браузер на основе WebKit!
Существует также рабочая группа, которая произвела http://www.w3.org/TR/xhtml+voice/, но я не верю, что это реализовано в любом браузере, кроме Opera.
Я только что подтвердил это на своем Chrome Cr-48, он работает.