Вы знаете те фильмы, в которых технические разработчики записывают кого-то голос, а их программное обеспечение разбивает его на фонемы? Что они могут затем использовать для ввода какой-либо фразы и заставить его выглядеть так, как будто цель говорит это?
Существует ли это программное обеспечение в версии API? Я даже не знаю, что для Google.