Переполнение стека, возможно, не лучшее место, чтобы задать этот вопрос, но мне нужна помощь. У меня есть mp3 файл, и я хочу использовать распознавание речи Google, чтобы получить текст из этого файла. Любые идеи, где я могу найти документацию или примеры, будут оценены.
Как использовать распознавание речи google api в python?
Ответ 1
Взгляните на API Google Cloud Speech API, который позволяет разработчикам конвертировать аудио в текст [...] API распознает более 80 языков и вариантов [... ] Вы можете создать бесплатную учетную запись, чтобы получить ограниченный объем запросов API.
КАК:
Вам нужно сначала установить модуль gcloud python и google-api-python-client с помощью:
pip install --upgrade gcloud
pip install --upgrade google-api-python-client
Затем в консоли Cloud Platform перейдите на страницу "Проекты" и выберите или создайте новый проект. После того, как вам нужно включить выставление счетов для своего проекта, включить API облачной речи.
После включения API Google Cloud Speech API нажмите кнопку Перейти к учетным записям, чтобы настроить учетные данные API Cloud Speech
См. "Настройка учетной записи службы" для получения информации о том, как разрешить использование службы API облачной речи от вашего кода.
Вы должны получить как ключ ключа учетной записи службы (в JSON), так и переменную среды GOOGLE_APPLICATION_CREDENTIALS, которая позволит вам аутентифицироваться в API речи
Как только все сделано, скачайте аудиофайлы из Google, а также speech-discovery_google_rest_v1.json из Google
Измените предыдущий загруженный файл JSON, чтобы установить ключ учетных данных затем убедитесь, что вы установили переменную окружения GOOGLE_APPLICATION_CREDENTIALS в полный путь к файлу .json:
export GOOGLE_APPLICATION_CREDENTIALS=/path/to/service_account_file.json
и
Убедитесь, что вы указали переменную среды GCLOUD_PROJECT в ID вашего проекта Google Cloud:
export GCLOUD_PROJECT=your-project-id
при условии, что все сделано, вы можете создать файл tutorial.py, который содержит:
import argparse
import base64
import json
from googleapiclient import discovery
import httplib2
from oauth2client.client import GoogleCredentials
DISCOVERY_URL = ('https://{api}.googleapis.com/$discovery/rest?'
'version={apiVersion}')
def get_speech_service():
credentials = GoogleCredentials.get_application_default().create_scoped(
['https://www.googleapis.com/auth/cloud-platform'])
http = httplib2.Http()
credentials.authorize(http)
return discovery.build(
'speech', 'v1beta1', http=http, discoveryServiceUrl=DISCOVERY_URL)
def main(speech_file):
"""Transcribe the given audio file.
Args:
speech_file: the name of the audio file.
"""
with open(speech_file, 'rb') as speech:
speech_content = base64.b64encode(speech.read())
service = get_speech_service()
service_request = service.speech().syncrecognize(
body={
'config': {
'encoding': 'LINEAR16', # raw 16-bit signed LE samples
'sampleRate': 16000, # 16 khz
'languageCode': 'en-US', # a BCP-47 language tag
},
'audio': {
'content': speech_content.decode('UTF-8')
}
})
response = service_request.execute()
print(json.dumps(response))
if __name__ == '__main__':
parser = argparse.ArgumentParser()
parser.add_argument(
'speech_file', help='Full path of audio file to be recognized')
args = parser.parse_args()
main(args.speech_file)
Затем запустите:
python tutorial.py audio.raw