Подтвердить что ты не робот

API распознавания речи Google: отметка времени для каждого слова?

Можно использовать API распознавания речи Google, чтобы получить транскрипцию для аудиофайла (WAV, MP3 и т.д.), выполнив запрос http://www.google.com/speech-api/v2/recognize?...

Пример: я сказал "один два три за пять" в WAV файле. API Google дает мне это

{u'alternative': [{u'transcript': u'12345'}, {u'transcript': u'1 2 3 4 5'}, 
{u'transcript': u'one two three four five'}],  u'final': True}

Вопрос: возможно ли получить время (в секундах), на которое было произнесено каждое слово?

В моем примере:

['one', 0.23, 0.80], ['two', 1.03, 1.45], ['three', 1.79, 2.35], etc.

то есть. слово "один" было сказано между временем 00: 00: 00.23 и 00: 00: 00.80,
слово "два" было указано между временем 00: 00: 01.03 и 00: 00: 01.45 (в секундах)

PS: поиск API, поддерживающего другие языки, чем английский, особенно французский.

4b9b3361