Голосовой ввод текста (4 программы и 5 онлайн-сервисов)

Чтобы добавить или изменить слова в Словаре

Эта функция позволяет убедиться, что Ваша команда распознана системой и готова для выполнения. Библиотека распознавания голосовых команд VoiceCom составляет ядро описанных выше программ VoiceNavigator и Truffaldino. При этом связь текста и речи устанавливается автоматически. И хотя они не позволяют выполнять эту работу без клавиатуры и мыши, все же их применение может ускорить набор текста, особенно для людей с ограниченными возможностями.

Система будет выполнять распознавание в фоновом режиме. Можно выделить фрагменты текста и голосом. Другие примеры Вы найдете в документации к пакету MicrosoftOfficeXP и в справочной системе. Это компьютерный транскрайбер, а также системы Нестор и Аллегро. Evernote не преобразует аудиозаписи в текст и не позволяет искать аудиозаметки по словам записи. Самые современные устройства поддерживают преобразование речи в текст, если вы включите эту функцию.

Благодаря распознаванию речи в Windows использование клавиатуры и мыши не является обязательным. В пункте распознавания языка выберите английский. Средства распознавания речи, поставляющиеся в составе MicrosoftOfficeXP, можно использовать со всеми приложениями пакета, такими как MicrosoftWord, MicrosoftExcel и т.д. Именно эту технику, как правило, и имеют в виду, говоря о преобразовании текст-речь.

Windows предоставляет функцию распознавания речи на основе устройств (доступную как с помощью приложения Windows Recech Recognition Desktop), так и с помощью облачной службой распознавания речи на тех рынках и регионах, где доступна Cortana. Microsoft может использовать голосовые данные, взаимодействия с компьютером, чтобы улучшить услуги распознавания речи.

Чтобы использовать распознавание речи, необходимо включить параметр «Знакомство с вами» (параметр конфиденциальности в разделе «Персонализация рукописного ввода и ввода с клавиатуры»), поскольку голосовые службы существуют как в облаке, так и на вашем устройстве. Информация, которую Microsoft собирает с их помощью, позволяет их улучшить. Речевые службы, которые не передаются в облако и присутствуют только на вашем устройстве, такие как «Диктор» и «Распознавание речи Windows», по-прежнему будут работать, если этот параметр отключен, но Microsoft уже не будет собирать данные.

Если для параметра «Диагностика и использование данных» («Параметры» → «Конфиденциальность» → «Диагностика и отзывы») установлено значение «Полные», входящие данные для рукописного ввода и ввода текста отправляются в Microsoft, и компания использует эти данные в совокупности, чтобы улучшить платформу для всех пользователей.

Как использовать распознавание речи в Windows 10

Несмотря на небольшой процесс обучения, распознавание речи использует четкие и легко запоминаемые команды. Например, «Пуск» открывает соответствующее меню, а «Показать рабочий стол» сворачивает все окна.

Если инструмент с трудом понимает ваш голос, используйте функцию «Показать числа», поскольку все на экране пронумеровано. Чтобы выполнить необходимую команду произнесите число и скажите «ОК».

В контекстном меню открываем функцию «Показать числа», произносим число, затем говорим «ОК»

С помощью функции распознавания речи вы можете выполнить необходимые задачи.

Включение и выключение

Чтобы использовать эту функцию, в зависимости от конфигурации нажмите кнопку микрофона или скажите «Начать прослушивание».

Для начала работы распознавания речи нажимаем кнопку микрофона или говорим «Начать прослушивание»

Таким же образом вы можете отключить его, сказав «Стоп» или нажав кнопку микрофона.

Использование команд

Правильное использование команд в распознавании речи

Одними из наиболее часто используемых команд являются:

«Открыть» (Open) — запускает приложение после озвучивания слова «Open», за которым следует имя приложения. Например, «Open Mail» или «Open Firefox»;
«Переключиться на» (Switch to) — переход к другому запущенному приложению. Произнесите команду «Переключиться», за которой должно следовать имя приложения. Например, «Switch to Microsoft Edge»;
управление открытым окном. Чтобы управлять активным окном используйте команды «Свернуть», «Максимизировать» и «Восстановить» (Minimize, Maximize и Restore);
прокрутка (Scroll). Позволяет прокручивать страницу. Просто используйте команду «Scroll down» («Прокрутить вниз») или «Scroll up» («Прокрутить вверх»), «Scroll left» («Прокрутить влево») или «Scroll right» («Прокрутить вправо»). Также можно указать длинное прокручивание. Например, произнесите: «Scroll down two pages» («Прокрутить вниз две страницы»);
закрытие приложений (Close). Произнесите команду «Close» («Закрыть»), а затем имя запущенного приложения. Например, «Close Word» («Закрыть Word»);
клики (Click). Внутри приложения вы можете использовать команду «Click» («Щелчок»), за которой следует имя элемента. Например, в Word вы можете сказать «Click Layout» («Щелчок по макету»), и распознавание речи откроет вкладку «Макет». Аналогичным образом можно использовать команды «Double-click» («Двойной щелчок») или «Right-click» («Правый щелчок»);
нажатие (Press). Эта команда запускает горячие клавиши. Например, чтобы открыть «Центр действий» произнесите «Press Windows A» («Нажать Windows A»).

Использование диктовки

Распознавание речи также включает в себя возможность преобразования голоса в текст с использованием функции диктовки, и работает автоматически.

Откройте приложение (убедитесь, что функция находится в режиме прослушивания) и начните диктовать текст. Например, если вы хотите вставить вопрос (нужно говорить на английском) «Доброе утро, куда вы поедете сегодня?», то следует произнести: «Открыть скобы доброе утро запятая куда вы поедете сегодня вопросительный знак закрыть скобы».
Если вам нужно откорректировать текст, используйте команду «Correct» («Исправить»), а затем произнесите слово или предложение, которое подлежит изменению. Например, если вы хотели написать «верно», а инструмент распознал слово как «верю», произнесите «Исправить верно», выберите предложение с помощью панели коррекции или команды «Произнести», а затем скажите «ОК».

Разработка →Поиск оптимальной системы аудио распознавания речи с закрытым исходным кодом, но имеющими открытые API, для возможности интеграции

Защитные голосовые системы, в которых интонационный рисунок речи используется как пароль, применяются для защиты от несанкционированного доступа к данным. Эти словари построены также для многих языков — от английского (с разными акцентами) до иврита и японского, однако с русским языком работать в таком режиме пока нельзя.

Словари для распознавания слитной речи имеются только для небольшого количества языков — английского, французского, немецкого, испанского, корейского и еще нескольких. Другой пример системы, работающей с распознаванием речи на русском языке — система подбора кадров, продукт компании Артикс.

Признаки[править]

Входные данные представляют собой непрерывную осциллограмму звуковой волны. В задачах распознавания речи эту осциллограмму разбивают на фреймы — фрагменты звукового потока длительностью около 20 мс и шагом 10 мс. Такой размер соответствует скорости человеческой речи: если человек говорит по 3 слова в секунду, каждое из которых состоит примерно из 4 звуков и каждый звук разбивается на 3 этапа, то на этап выходит около 28 мс. Каждый фрейм независимо трансформируется и подвергается извлечению признаков, тем самым образуя векторизированный набор данных для задачи машинного обучения.

Признаки речевых событий, используемые при распознавании речи:

Спектр Фурье.
Спектр Фурье в шкале мел.
Коэффициенты линейного предсказания.
Кепстр.

Спектр Фурье

Спектр Фурье получают, используя алгоритм БПФ (Быстрого Преобразования Фурье) с длиной окна равной 2-4 периода основного тона, что составляет около 20 мс. При частоте квантования 10-16 кГц выбирается окно 256 отсчетов.

Для ослабления искажений сигнала, вызванных применением к непрерывному сигналу конечного окна анализа, чаще всего используется окно Хэмминга по формуле:

где n = 1..N, N – размерность окна, S(n) – отсчеты речевого сигнала.

Спектр Фурье в шкале мел

К каждому кадру, полученного Фурье спектра применяется блок мел-фильтров — треугольных пересекающихся фильтров, расположенных наиболее плотно в области нижних частот. Количество фильтров — 26. Для расчета фильтров выбирается верхняя и нижняя частота. Затем осуществляется переход от частотной шкалы к мел-шкале по формуле:

На мел-шкале выбираются линейно расположенные точки (28 точек для 26 фильтров), после чего, производится обратный переход в частотную область.

Коэффициенты линейного предсказания

Модель линейного предсказания речи предполагает, что передаточная функция голосового тракта представляется полюсным фильтром с передаточной
функцией:

где p – число полюсов и ;
Фильтр с такой передаточной функцией позволяет описать поведение сглаженного спектра речевого сигнала с хорошей точностью, за исключением назализованных звуков. Коэффициенты фильтра {} – выбираются путем минимизации среднеквадратичной ошибки предсказания, просуммированной на окне анализа.

Кепстр

Кепстр (cepstrum) сигнала на основе спектра Фурье вычисляется путем применения косинусного Фурье преобразования к логарифму спектра:

где – логарифм спектра, N – количество отсчётов спектра, – унитарная матрица косинусного преобразования.

Кепстральные коэффициенты, полученные приведённым способом из мел спектра Фурье, широко используются для распознавания с помощью марковских моделей и носят название MFCC (Mel-frequency cepstral coefficients).

Коллекция сторонних программ

Помимо встроенного инструмента распознавания речи и голосового помощника Кортана, некоторые пользователи могут обратиться к сторонней альтернативе. Поскольку это категория программ находится в постоянном развитии, на рынке существуют различные продукты, совместимые с Windows 10. Единственный вопрос — это ваши потребности и пожелания.

Некоторые из программ, такие как:

Typle отличная программа для управления голосом на компьютере, простой русскоязычный интерфейс;
Dragon от производителя Nuance, специализируются на быстрой диктовке и в целом на преобразовании речи в текст;
Voice Attack, предназначены для голосового управления игровым процессом (да, вы можете перезагрузить оружие в Call of Duty с помощью голосовой команды);
еще одна неплохая утилита — VoxCommando. Чаще всего используется в мультимедийных программах, таких как Kodi или iTunes, но также может быть полезной при автоматизации домашних устройств.

Голосовое управление компьютера с помощью программы Typle

Скачайте программу и установите на компьютер, следуя инструкции установщика.
Интерфейс программы простой и понятный. При приветствии в окне программы есть подсказки для пользователя. Для начала нажмите кнопку «Добавить».
В открывшемся окне введите в поле свое имя, далее введите команду, затем нажмите на кнопку записи и произнесите команду голосом. Нажмите кнопку «Добавить».
Нажмите кнопку «Добавить».
Отметьте галочкой необходимый пункт. Выберите программу, нажмите красную кнопку и произнесите эту команду вслух. Затем нажмите «Добавить».
Вы увидите созданную команду, для проверки нажмите «Начать говорить» и произнесите эту команду. Если все работает таким же образом добавляете остальные команды.

Попробуйте TalkTyper

Это онлайн-приложение, которое позволяет диктовать текст, а затем предлагает несколько базовых вариантов того, что с ним делать. Любителям минимализма оно точно понравится.

Интерфейс онлайн-приложения TalkTyper

TalkTyper использует алгоритм голосовой почты Google. Конечно, для его использования также требуется браузер Chrome. Для использования приложения необходимо:

Вы можете скопировать начитанное в буфер обмена, отправить по электронной почте, напечатать, твитнуть и перевести на другой язык. Чтобы перевести текст просто нажмите кнопку, и выберите язык перевода. TalkTyper автоматически откроет в браузере новую вкладку с текстом, вставленным в переводчик Google.

Обратите внимание на Tazti

Tazti выделяется среди других программ двумя отличительными особенностями:

вы можете использовать приложение для управления компьютером и играми с помощью голосовых команд. И если у Tazti нет нужной вам команды, ее можно создать (и еще 299);
программа способна запускать установленные приложения, вебсайты, каталоги или использовать командную строку.

Настраивайте Tazti по своему усмотрению. Если вам не нужна команда, тогда отредактируйте ее или полностью удалите. Вы даже можете добавить команды «щелчок» и «двойной щелчок», чтобы избавиться от необходимости использования мыши.

Интерфейс программы Tazti

Тем не менее у Tazti есть один большой недостаток — она не имеет функции диктовки текста, поэтому не способна распознавать голос. Разработчик Voice Tech Group признает, что другие продукты намного лучше справляются с диктовкой, поэтому компания решила сосредоточить все усилия на других особенностях своего детища.

Tazti больше ориентируется на геймеров, которые хотят использовать свой голос для отправки персонажей на битву или тех, кто предпочитает запускать программы, медиаплееры и просматривать веб-страницы без необходимости использования клавиатуры. Тот факт, что вы можете контролировать важные части Windows с помощью Tazti, делает его достойным противником вышеупомянутых приложений, даже если и не предлагает диктовку.

Итак, если распознавание речи или Кортана не соответствуют вашим требованиям (или вы попросту не можете ими воспользоваться), тогда попробуйте вышеперечисленные утилиты.

Пример

Рис.6. Распределение первых двух компонент MFCC-векторов всей базы обучения.

Алгоритм

Пункт 1. Находим супервектор средних для всей базы обучения при помощи алгоритма K-средних.

Рис.7. Пример работы алгоритма K-средних для K=10.

Пункт 2. Для каждого файла базы находим собственные средние значения по формуле:
Mk=a∗Mk+(1—a)∗Mk′,k=1K{\displaystyle \ Mk = a * \mbox{Mk}_\mathrm{0} + (1 — a) * Mk’, k = 1:K }
где Mk{\displaystyle \mbox{Mk}_\mathrm{0}} — среднее значение, найденное в пункте 1, Mk′{\displaystyle \ Mk’} — среднее значение, полученное в результате применения одной итерации алгоритма K-средних для MFCC-векторов файла с использованием в качестве начального значения Mk{\displaystyle \mbox{Mk}_\mathrm{0}},
a=R(R+Nk){\displaystyle \ a = R/(R + Nk) },
где R — коэффициент «чувствительности», Nk — число MFCC-векторов, соответствующие среднему значению Mk′{\displaystyle \ Mk’}.
Найденные таким образом средние значения будем называть адаптированными средними значениями.

Рис.8. Пример адаптированных средних значений для файла.

Пункт 3. Имея теперь вместо исходных фонограмм адаптированные супервектора средних, проводим LDA для N классов (каждый класс соответствует одному слову).
В результате мы должны получить матрицу, состоящую из векторов нового базиса, при проекции на который исходные адаптированные супервектора средних должны достаточно хорошо разделяться.

Рис.9. Пример для N=4.

Пункт 4. Проецируем все адаптированные супервектора средних на новый базис и находим средние значения и СКО (среднее квадратичное отклонение) проекций для каждого класса.

Пункт 5. Для определения принадлежности тестовой фонограммы тому или иному классу (т.е. распознавания), выполняем для неё пункты 2 и 4, далее находим расстояния полученной проекции до средних значений всех классов (можно дополнительно нормировать их на соответствующее СКО). Минимальное расстояние и будет соответствовать классу, к которому принадлежит тестовая фонограмма.

Реализация

Создание собственной системы распознавания слов состоит из следующих этапов:

Запись фонограмм для обучения и тестирования
Построение MFCC-векторов
Обучение и тестирование системы

Результат экспериментов

В качестве эксперимента была создана система, которая умеет распознавать 14 записанных голосом слов. Для обучения системы каждое слово было записано 4-5 раз, а для тестирования — 7 раз. Итого база обучения содержит 63 файла, а база тестирования — 98. Использовались следующие параметры при обучении:

Количество средних значений: 10
Коэффициент «чувствительности» при адаптации: 20
Размерность проекции: 20
Использование нормализации на СКО: отсутствует

Результат тестирования на базе обучения показал уровень ошибки распознавания слов (WER) 1,6%, а на базе тестирования — 5,1%.

Сервис Dictate

По умолчанию эта функция в программе «Ворд» отсутствует и никакие обновления не помогут. Для этой цели нужно использовать сторонний сервис Dictate.

Для того чтобы в вашем офисе появилась возможность надиктовки, нужно выполнить следующие шаги.

Откройте официальную страницу разработчиков. Нажмите на ссылку «Download for Office 32-bit» или на «For Office 64-bit click here».

Нажмите на кнопку «Сохранить».

Запустите скачанный файл.

Нажмите на кнопку «Next».

Соглашаемся с лицензионным соглашением и кликаем на «Next».

Затем на кнопку «Install».

После небольшого ожидания завершаем установку нажатием на «Finish».

Запускаем редактор Word и переходим на вкладку «Dictation».

Если вы не собираетесь переводить текст, то в обоих полях выберите русский язык.

Убедитесь, что у вас подключен микрофон и он работает. Сделайте правый клик по иконке со звуком.

Выберите пункт «Записывающие устройства».

Скажите что-нибудь в микрофон. При этом шкала должна загореться. Если ничего не происходит – это плохо. Значит, устройство выключено или не работает.
Убедитесь, что именно этот микрофон указан по умолчанию. В противном случае набор текста будет невозможен.

Если всё хорошо, то нажмите на кнопку «OK».

Возвращаемся в редактор «Ворд». Для того чтобы начать набирать текст при помощи голосовых команд, нужно всего лишь кликнуть на иконку «Start».

Попробуем сказать что-нибудь.

Всё работает отлично. Согласитесь, так печатать текст намного удобнее и проще. А самое главное – это очень быстро. Для остановки записи нужно нажать на кнопку «Stop».

Как подключить Dictate

Скачайте бесплатное расширение Dictate с сайта dictate.ms
Откройте Outlook и пройдите по пунктам меню «Файл» → «Параметры» →«Надстройки».
Управление настройками Microsoft Office — подключение Dictate

Теперь кликните на «Управление: надстройки COM» и выберите в новом окне «Добавить».
Пройдите к тому месту, где сохранили расширение, которое предварительно скачали, выберите его и нажмите затем на кнопку «ОK».
Убедитесь в том, что напротив «Microsoft Dictate» есть галочка, и сохраните настройки нажатием на кнопку «ОK».

Установка бесплатного голосового движка для пользователей Windows 7 или Windows 8

Нам нужно, чтобы работала озвучка текста в Ворде у пользователей операционных систем Windows 7 или Windows 8. Для этого необходимо установить на компьютер Microsoft Speech Platform — набор голосовых инструментов Майкрософт.

В операционной системе должна быть установлена программная платформа .NET Framework 4.0 или выше. Убедитесь, что этот компонент установлен в Windows. Если его нет, скачайте программную среду с официального сайта Майкрософт, а затем установите ее на ПК.

Проделайте последовательные шаги:

Теперь вы сможете преобразовывать текст в речь в окне открытого документа. При проговаривании текста используется женский голос «Елена» (Microsoft Elena).

Как заставить Mac читать текст вслух

Мы не хотим оставлять читателей Mac позади, поэтому вот самый простой встроенный способ заставить ваш Mac произносить текст вслух. Это часть специальных возможностей и использует горячую клавишу для запуска и остановки чтения выделенного текста голосом. Настроить очень просто:

сначала выберите меню Apple, а затем Системные настройки.

Теперь выберите «Специальные возможности», а затем «Речь».

Затем выберите «Озвучивать выделенный текст при нажатии клавиши».

Комбинация горячих клавиш по умолчанию — Option + Esc, но вы можете изменить это, выбрав «Изменить клавишу», а затем используя Command, Shift, Option или Control вместе с любой другой клавишей, чтобы создать настраиваемую комбинацию.

Диаризация спикера с помощью API распознавания речи AssemblyAI

Вы также можете получить дневник докладчика из вашего транскрипта, передав дополнительный параметр API. Запрос на расшифровку стенограммы, который также вернет вам метки выступающих, может быть выполнен, как в приведенном ниже коде.

transcript_request = {
    'audio_url': audio_url,	
    'speaker_labels': 'true'
}

Пример ответа из расшифровки стенограммы с дневником докладчика может выглядеть как JSON ниже. Вы можете рассчитывать найти результаты своей записи в дневнике под клавишей «высказывания». Спикеры будут обозначены от А до Я.

{
   "acoustic_model": "assemblyai_default",
   "audio_duration": 150.766167800454,
   "audio_url": "https://app.assemblyai.com/static/media/phone_demo_clip_1.wav",
   "confidence": 0.922175805047867,
   "dual_channel": true,
   "format_text": true,
   "id": "5552830-d8b1-4e60-a2b4-bdfefb3130b3",
   "language_model": "assemblyai_default",
   "punctuate": true,
   "status": "completed",
   "text": "Hi, I'm joy. Hi, I'm sharon. Do you have kids in school. ...",
   # the "utterances" key below is a list of the turn-by-turn utterances found in the audio
   "utterances": 
       },
       # the next "turn" by speaker "B" - for example
       {
           "speaker": "B",
           "confidence": 0.94,
           "end": 3260,
           "start": 0,
           "text": "Hi, I'm sharon.",
           "words": 
       },
       {
           "speaker": "A",
           "confidence": 0.94,
           "end": 5420,
           "start": 2820,
           "text": "Do you have kids in school.",
           "words": 
       },
   ],
   # all of the words found in the audio across all speakers
   "words": 
}

Диктовать текст с распознаванием речи

Чтобы диктовать текст с распознаванием речи, откройте любое приложение с текстовым полем и произнесите «начать прослушивание» или нажмите кнопку микрофона, если вы выбрали режим ручной активации. Начните говорить, и Windows Speech Recognition войдет в слова, которые вы говорите. Имейте в виду, что вам придется говорить знаки препинания, которые вы хотите ввести. Например, чтобы ввести «Привет, как дела? У меня все хорошо ». С кавычками вы должны были бы сказать« открывать цитату в запятую, как вы сомневаетесь в вопросе, который я делаю хорошо ».

Windows Speech Recognition прекрасно вас не понимает, поэтому вам придется иногда исправлять ее. Например, предположим, что Windows неправильно понимает вас и называет слово «женщина», когда вы говорите «моменты». Чтобы исправить это, вы бы сказали «правильные женщины». Вы увидите панель на экране с предложениями. Чтобы выбрать предложение, произнесите номер и затем скажите «ОК». Если вы не видите слово, которое вы хотели сказать в списке, произнесите его вслух, произнесите номер рядом с соответствующим словом и скажите «ОК». Вы также можете сказать «исправить это», чтобы исправить последнее введенное слово.

Если в вашем документе имеется несколько экземпляров слова, вам может потребоваться сузить его. Например, допустим, у вас есть две «женщины» в вашем документе. Когда вы говорите «правильная женщина», вы увидите цифры, появляющиеся над каждым экземпляром слова. Говорите номер, который вы хотите исправить, и произнесите «ОК». Например, коррекция может звучать примерно как «правильные две правильные моменты женщины в порядке».

Вы также можете сказать «правильно», а затем несколько слов, чтобы исправить фразу вместо исправления каждого слова за раз.

Распознавание речи чрезвычайно мощно для диктовки и позволяет быстро вносить исправления, перемещать курсор и удалять вещи. Когда вы изучите основные правила, команды станут достаточно очевидными, и вам не придется регулярно консультироваться с чит-листом. Вот несколько из многих других голосовых команд, которые вы можете использовать:

Удалить предыдущее предложение: Удаляет предложение слева от курсора.
Выберите слово через слово: Выбирает целый ряд слов между словами «слово» и «слово».
Пойдите после слова: Помещает курсор после определенного слова.

Варианты распознавания речи с открытым исходным кодом и облачным Python

Одним из самых больших преимуществ решений распознавания речи Open Source Python является то, что это открытый исходный код. Открытый исходный код означает, что вы можете видеть исходный код. Вы можете точно знать, что делается, как это делается и когда это делается. Если вы высококвалифицированный инженер, то ещё одним большим преимуществом таких является то, что вы можете самостоятельно изменить код. Самый большой недостаток решений с открытым исходным кодом заключается в том, что вычислительная мощность, необходимая для распознавания речи, должна исходить от вас. Либо локально, либо на собственных облачных ресурсах. Для многих это проблема.

Если вы разрабатываете решение для компании или корпорации, у которой есть много облачных ресурсов и денег, то это не проблема. Однако, если денег нет, то это недостаток

Еще одно важное соображение заключается в том, что параметры распознавания речи на Python с открытым исходным кодом обычно намного менее точны, чем параметры облачного API. Если в вашем проекте важна точность, вам, вероятно, будет лучше облачное решение

Облачные решения для создания проекта распознавания речи на Python имеют большое преимущество в том, что они просты в использовании, намного более точны, чем варианты с открытым исходным кодом, и не требуют размещения каких-либо моделей на собственном оборудовании.

Основным недостатком некоторых облачных решений является стоимость. К счастью, существуют бесплатные опции, которые предлагают настройку, такую как настройка словаря, определение абзацев и ведение дневника говорящего для создания простого проекта распознавания речи на Python. Одним из примеров является . Еще одно большое преимущество облачных решений заключается в том, что их намного проще реализовать, чем варианты с открытым исходным кодом.

Ключевой вывод: когда вы выбираете решение для своего проекта распознавания речи на Python, главное, о чем следует подумать, — это точность, стоимость и простота реализации.

# The Recognizer Class

Основной целью экземпляра , является распознавание речи. Каждый экземпляр поставляется с различными настройками и функциями для распознавания речи из аудио-источника.

Создать экземпляр Recognizer очень просто:

Каждый экземпляр Recognizer имеет семь методов для распознавания речи из аудио-источника с использованием различных API:

recognize_bing(): Microsoft Bing Speech
recognize_google(): Google Web Speech API
recognize_google_cloud(): Google Cloud Speech — требует установки пакета google-cloud-speech package
recognize_houndify(): Houndify by SoundHound
recognize_ibm(): IBM Speech to Text
recognize_sphinx(): CMU Sphinx — требует установки PocketSphinx
recognize_wit(): Wit.ai

Из семи только работает в автономном режиме с движком CMU Sphinx. Остальные шесть требуют подключения к интернету.

Поскольку поставляется с ключом API по умолчанию для Google Web Speech API, вы можете сразу начать работу с ним. По этой причине мы будем использовать Web Speech API. Все остальные шесть API-интерфейсов требуют аутентификации либо по ключу API, либо по комбинации имени пользователя и пароля. Дополнительная информация в документации .

ВНИМАНИЕ. Ключ по умолчанию, предоставляемый , предназначен только для тестирования, и Google может отозвать его в любое время

Не очень хорошая идея использовать Google Web Speech API в работе. Даже при наличии действующего ключа API вы будете ограничены только 50 запросами в день, и повысить эту квоту невозможно. К счастью, интерфейс практически идентичен для каждого API, поэтому то, что вы узнаете сегодня, будет легко преобразовать в реальный проект

Ключ по умолчанию, предоставляемый , предназначен только для тестирования, и Google может отозвать его в любое время. Не очень хорошая идея использовать Google Web Speech API в работе. Даже при наличии действующего ключа API вы будете ограничены только 50 запросами в день, и повысить эту квоту невозможно. К счастью, интерфейс практически идентичен для каждого API, поэтому то, что вы узнаете сегодня, будет легко преобразовать в реальный проект.

Каждый метод распознавания генерирует исключение . RequestError, если API недоступен. Для это может произойти в результате отсутствующей, поврежденной или несовместимой установки . Для других шести методов RequestError может быть сгенерирован, если соблюдены ограничения квоты, сервер недоступен или отсутствует подключение к Интернету.

Попробуйте вызвать :

Получили что-то похожее на это:

123

Все семь методов распознавания класса Recognizer требуют аргумент audio_data. В каждом случае audio_data должен быть экземпляром класса AudioData SpeechRecognition.

Существует два способа создания экземпляра AudioData: из аудио-файла или аудио, записанного микрофоном.

Чтобы добавить или изменить слова в Словаре

Что можно сделать с помощью голосового ввода текста

Данная функция реализуется с помощью отдельной программы, которая автоматически переводит произнесенные слова в письменный текст.

Эта технология позволяет:

переводить аудиофайлы (точнее, слова) в текст;
увеличить скорость переноса информации в компьютер (человек говорит быстрее, чем печатает);
набирать текст людям с ограниченными возможностями.

Windows 10 не поддерживает данную функцию. Для реализации технологии голосового текста потребуется установка сторонних приложений.

Для использования такой функции потребуется микрофон. Причем тип аппарата в данном случае не играет роли.

Что наиболее рекомендуется?

В этой статье мы обсуждали множество приложений, но, без сомнения, некоторые из них лучше других. В случае приложений для перехода от речи к тексту лучше всего использовать Диктовать приложение и даже собственные функции Apple через Siri . Мы считаем, что он очень чистый и простой в использовании, который позволяет вам переходить от голоса к тексту на кончиках ваших пальцев, не усложняя себе жизнь, просто нажав простую кнопку и начав говорить, чтобы транскрибировать ее в цифровом виде.

Во втором из рассмотренных нами случаев, переходя от текста к речи, наиболее рекомендуемым приложением является SpeakLine . Самая важная причина, которую мы можем указать в таблице, — это выбор факта сохранения самого файла, созданного с текстом. То есть из всех слов, которые вы поместили в текстовое поле, вам не нужно воспроизводить их в данный момент на Mac, но вы экспортируете их в .mp3. Затем вы можете перенести его на свой мобильный телефон, чтобы играть в него где угодно и когда угодно.