Используйте Mozilla DeepSpeech, чтобы преобразовать речь в текст в вашем приложении.
Распознавание речи в приложениях — это не просто забавный трюк, а важная функция специальных возможностей.
Одной из основных функций компьютеров является анализ данных. Некоторые данные анализировать легче, чем другие, а работа над голосовым вводом все еще находится в стадии разработки. Однако за последние годы в этой области произошло много улучшений, и одно из них связано с DeepSpeech, проектом Mozilla, фондом, который поддерживает веб-браузер Firefox. DeepSpeech — это команда и библиотека преобразования голоса в текст, что делает ее полезной для пользователей, которым необходимо преобразовать голосовой ввод в текст, и разработчиков, которые хотят обеспечить голосовой ввод для своих приложений.
Установить ДипСпич
DeepSpeech — это программа с открытым исходным кодом, выпущенная под лицензией Mozilla Public License (MPL). Вы можете скачать исходный код со страницы GitHub.
Для установки сначала создайте виртуальную среду для Python:
$ python3 -m pip install deepspeech --user
DeepSpeech опирается на машинное обучение. Вы можете обучить его самостоятельно, но проще всего загрузить предварительно обученные файлы модели, когда вы только начинаете.
$ mkdir DeepSpeech
$ cd Deepspeech
$ curl -LO \
https://github.com/mozilla/DeepSpeech/releases/download/vX.Y.Z/deepspeech-X.Y.Z-models.pbmm
$ curl -LO \
https://github.com/mozilla/DeepSpeech/releases/download/vX.Y.Z/deepspeech-X.Y.Z-models.scorer
Приложения для пользователей
С помощью DeepSpeech вы можете транскрибировать записи речи в письменный текст. Вы получите наилучшие результаты от чисто записанной речи в оптимальных условиях. Однако, в крайнем случае, вы можете попробовать любую запись и, вероятно, получите что-то, что можно использовать в качестве отправной точки для ручной транскрипции.
В целях тестирования вы можете записать аудиофайл, содержащий простую фразу: «Это тест. Привет, мир, это тест». Сохраните аудио как файл .wav
с именем hello-test.wav
.
В папке DeepSpeech запустите транскрипцию, предоставив файл модели, файл оценки и аудио:
$ deepspeech --model deepspeech*pbmm \
--scorer deepspeech*scorer \
--audio hello-test.wav
Вывод осуществляется на стандартный выход (ваш терминал):
this is a test hello world this is a test
Вы можете получить выходные данные в формате JSON, используя параметр --json
:
$ deepspeech --model deepspeech*pbmm \
-- json
--scorer deepspeech*scorer \
--audio hello-test.wav
Это отображает каждое слово вместе с меткой времени:
{
"transcripts": [
{
"confidence": -42.7990608215332,
"words": [
{
"word": "this",
"start_time": 2.54,
"duration": 0.12
},
{
"word": "is",
"start_time": 2.74,
"duration": 0.1
},
{
"word": "a",
"start_time": 2.94,
"duration": 0.04
},
{
"word": "test",
"start_time": 3.06,
"duration": 0.74
},
[...]
Разработчики
DeepSpeech — это не просто команда для расшифровки предварительно записанного звука. Вы также можете использовать его для обработки аудиопотоков в режиме реального времени. Репозиторий DeepSpeech-examples на GitHub полон JavaScript, Python, C# и Java для Android.
Большая часть сложной работы уже проделана, поэтому интеграция DeepSpeech обычно сводится к использованию библиотеки DeepSpeech и знанию того, как получить звук с хост-устройства (что обычно делается через файловую систему /dev
). в Linux или SDK на Android и других платформах.)
Распознавание речи
Для разработчика включение распознавания речи для вашего приложения — это не просто забавный трюк, а важная функция специальных возможностей, которая упрощает использование вашего приложения людьми с проблемами мобильности, слабым зрением и хроническими многозадачными людьми, которым нравится держать свои руки занятыми. . Для пользователя DeepSpeech — полезный инструмент транскрипции, который может конвертировать аудиофайлы в текст. Независимо от вашего варианта использования, попробуйте DeepSpeech и посмотрите, что он может вам сделать.