Аудио в текст (audio to text) Python
Для транскрибирования аудио в Python можно использовать несколько подходов. Вот пример с использованием библиотеки SpeechRecognition:
import speech_recognition as sr

'''
Аудио в текст (audio to text)

pip install SpeechRecognition
'''

audio_file = "audio.wav"
lang_file = "ru" # https://cloud.google.com/speech-to-text/docs/speech-to-text-supported-languages
recognizer = sr.Recognizer()

with sr.AudioFile(audio_file) as source:
    audio = recognizer.record(source)

try:
    text = recognizer.recognize_google(audio, language=lang_file)
    print(text)
except sr.UnknownValueError:
    print('Error! Unknown.')
except sr.RequestError as e:
    print(f'Error! {e}')

Для работы этого кода:

  1. Установите библиотеку: pip install SpeechRecognition

Примечания:

  • Этот код использует Google Speech Recognition API, который требует подключения к интернету.
  • Поддерживаются различные форматы аудио, но WAV обычно работает лучше всего.
  • Для больших файлов может потребоваться разделение на части.
  • Точность зависит от качества аудио и акцента говорящего.

Альтернативные подходы:

  1. Использование локальных моделей, таких как CMU Sphinx.
  2. Платные API, такие как Google Cloud Speech-to-Text или Amazon Transcribe.
  3. Более продвинутые библиотеки, такие как wav2vec2 от Hugging Face.
Поделится:
*текст* - жирный, ~текст~ - курсивный, -текст- - зачеркнутый, _текст_ - подчеркнутый
IP-адрес: 13.59.183.186
Часовой пояс: Asia/Almaty
Подробнее

Сервисы

Страницы

Информация