Поиск по сайту:

Используйте Mozilla DeepSpeech, чтобы преобразовать речь в текст в вашем приложении.


Распознавание речи в приложениях — это не просто забавный трюк, а важная функция специальных возможностей.

Одной из основных функций компьютеров является анализ данных. Некоторые данные анализировать легче, чем другие, а работа над голосовым вводом все еще находится в стадии разработки. Однако за последние годы в этой области произошло много улучшений, и одно из них связано с DeepSpeech, проектом Mozilla, фондом, который поддерживает веб-браузер Firefox. DeepSpeech — это команда и библиотека преобразования голоса в текст, что делает ее полезной для пользователей, которым необходимо преобразовать голосовой ввод в текст, и разработчиков, которые хотят обеспечить голосовой ввод для своих приложений.

Установить ДипСпич

DeepSpeech — это программа с открытым исходным кодом, выпущенная под лицензией Mozilla Public License (MPL). Вы можете скачать исходный код со страницы GitHub.

Для установки сначала создайте виртуальную среду для Python:

$ python3 -m pip install deepspeech --user

DeepSpeech опирается на машинное обучение. Вы можете обучить его самостоятельно, но проще всего загрузить предварительно обученные файлы модели, когда вы только начинаете.

$ mkdir DeepSpeech
$ cd Deepspeech
$ curl -LO \
https://github.com/mozilla/DeepSpeech/releases/download/vX.Y.Z/deepspeech-X.Y.Z-models.pbmm
$ curl -LO \
https://github.com/mozilla/DeepSpeech/releases/download/vX.Y.Z/deepspeech-X.Y.Z-models.scorer

Приложения для пользователей

С помощью DeepSpeech вы можете транскрибировать записи речи в письменный текст. Вы получите наилучшие результаты от чисто записанной речи в оптимальных условиях. Однако, в крайнем случае, вы можете попробовать любую запись и, вероятно, получите что-то, что можно использовать в качестве отправной точки для ручной транскрипции.

В целях тестирования вы можете записать аудиофайл, содержащий простую фразу: «Это тест. Привет, мир, это тест». Сохраните аудио как файл .wav с именем hello-test.wav.

В папке DeepSpeech запустите транскрипцию, предоставив файл модели, файл оценки и аудио:

$ deepspeech --model deepspeech*pbmm \
--scorer deepspeech*scorer \
--audio hello-test.wav

Вывод осуществляется на стандартный выход (ваш терминал):

this is a test hello world this is a test

Вы можете получить выходные данные в формате JSON, используя параметр --json :

$ deepspeech --model deepspeech*pbmm \
-- json
--scorer deepspeech*scorer \
--audio hello-test.wav

Это отображает каждое слово вместе с меткой времени:

{
  "transcripts": [
    {
      "confidence": -42.7990608215332,
      "words": [
        {
          "word": "this",
          "start_time": 2.54,
          "duration": 0.12
        },
        {
          "word": "is",
          "start_time": 2.74,
          "duration": 0.1
        },
        {
          "word": "a",
          "start_time": 2.94,
          "duration": 0.04
        },
        {
          "word": "test",
          "start_time": 3.06,
          "duration": 0.74
        },
[...]

Разработчики

DeepSpeech — это не просто команда для расшифровки предварительно записанного звука. Вы также можете использовать его для обработки аудиопотоков в режиме реального времени. Репозиторий DeepSpeech-examples на GitHub полон JavaScript, Python, C# и Java для Android.

Большая часть сложной работы уже проделана, поэтому интеграция DeepSpeech обычно сводится к использованию библиотеки DeepSpeech и знанию того, как получить звук с хост-устройства (что обычно делается через файловую систему /dev). в Linux или SDK на Android и других платформах.)

Распознавание речи

Для разработчика включение распознавания речи для вашего приложения — это не просто забавный трюк, а важная функция специальных возможностей, которая упрощает использование вашего приложения людьми с проблемами мобильности, слабым зрением и хроническими многозадачными людьми, которым нравится держать свои руки занятыми. . Для пользователя DeepSpeech — полезный инструмент транскрипции, который может конвертировать аудиофайлы в текст. Независимо от вашего варианта использования, попробуйте DeepSpeech и посмотрите, что он может вам сделать.

Статьи по данной тематике: