Аудио в текст (audio to text) Python

Для транскрибирования аудио в Python можно использовать несколько подходов. Вот пример с использованием библиотеки SpeechRecognition:

import speech_recognition as sr

'''
Аудио в текст (audio to text)

pip install SpeechRecognition
'''

audio_file = "audio.wav"
lang_file = "ru" # https://cloud.google.com/speech-to-text/docs/speech-to-text-supported-languages
recognizer = sr.Recognizer()

with sr.AudioFile(audio_file) as source:
    audio = recognizer.record(source)

try:
    text = recognizer.recognize_google(audio, language=lang_file)
    print(text)
except sr.UnknownValueError:
    print('Error! Unknown.')
except sr.RequestError as e:
    print(f'Error! {e}')

Для работы этого кода:

Установите библиотеку: pip install SpeechRecognition

Примечания:

Этот код использует Google Speech Recognition API, который требует подключения к интернету.
Поддерживаются различные форматы аудио, но WAV обычно работает лучше всего.
Для больших файлов может потребоваться разделение на части.
Точность зависит от качества аудио и акцента говорящего.

Альтернативные подходы:

Использование локальных моделей, таких как CMU Sphinx.
Платные API, такие как Google Cloud Speech-to-Text или Amazon Transcribe.
Более продвинутые библиотеки, такие как wav2vec2 от Hugging Face.

23.06.2024, 16:29:16 Админ 666 Python

Сервисы

Страницы

Информация

RSS статьи
RSS сервисы

Я в соцсети
YouTube
Instagram

Сейчас онлайн

Всего на сайте: 2

Пользователи: 0

Гости: 1

Люди: 1

Роботы: 1

Последние комментарии 08.05.2026, 12:36:42, Lurline Ward
a href="">Mem Reduct – Lightweight RAM Optimization Tool for Windows Computers often become slow aft... 08.05.2026, 12:34:39, Lurline Ward
Maximize Your PC Performance with Mem Reduct Is your computer running slow due to high RAM usage? Me...