API распознавания речи Google: отметка времени для каждого слова?

Можно использовать API распознавания речи Google, чтобы получить транскрипцию для аудиофайла (WAV, MP3 и т.д.), выполнив запрос http://www.google.com/speech-api/v2/recognize?...

Пример: я сказал "один два три за пять" в WAV файле. API Google дает мне это

{u'alternative': [{u'transcript': u'12345'}, {u'transcript': u'1 2 3 4 5'}, 
{u'transcript': u'one two three four five'}],  u'final': True}

Вопрос: возможно ли получить время (в секундах), на которое было произнесено каждое слово?

В моем примере:

['one', 0.23, 0.80], ['two', 1.03, 1.45], ['three', 1.79, 2.35], etc.

то есть. слово "один" было сказано между временем 00: 00: 00.23 и 00: 00: 00.80,
слово "два" было указано между временем 00: 00: 01.03 и 00: 00: 01.45 (в секундах)

PS: поиск API, поддерживающего другие языки, чем английский, особенно французский.

Ответ 1

Это невозможно с API Google.

Если вам нужны временные метки времени, вы можете использовать другие API, например:

CMUSphinx - бесплатный автономный интерфейс распознавания речи

SpeechMatics API распознавания речи SaaS

API распознавания речи от IBM

Ответ 2

Я считаю, что другой ответ устарел. Теперь это возможно с помощью API Google Cloud Search: https://cloud.google.com/speech/docs/async-time-offsets