Можно использовать API распознавания речи Google, чтобы получить транскрипцию для аудиофайла (WAV, MP3 и т.д.), выполнив запрос http://www.google.com/speech-api/v2/recognize?...
Пример: я сказал "один два три за пять" в WAV файле. API Google дает мне это
{u'alternative': [{u'transcript': u'12345'}, {u'transcript': u'1 2 3 4 5'},
{u'transcript': u'one two three four five'}], u'final': True}
Вопрос: возможно ли получить время (в секундах), на которое было произнесено каждое слово?
В моем примере:
['one', 0.23, 0.80], ['two', 1.03, 1.45], ['three', 1.79, 2.35], etc.
то есть. слово "один" было сказано между временем 00: 00: 00.23 и 00: 00: 00.80,
слово "два" было указано между временем 00: 00: 01.03 и 00: 00: 01.45 (в секундах)
PS: поиск API, поддерживающего другие языки, чем английский, особенно французский.