Распознавание речи

menu icon

Распознавание речи

Узнайте об истории развития технологий распознавания речи и разнообразных вариантах применения этих технологий в современном мире

Что такое распознавание речи?

Распознавание речи (также «автоматическое распознавание речи», «компьютерное распознавание речи» или «преобразование речи в текст») — это технология записи человеческой речи в виде текста. Не следует путать распознавание речи с распознаванием голоса: распознавание речи нацелено на преобразование устной речи в текст, в то время как распознавание голоса служит для идентификации отдельных пользователей по голосу.

Компания IBM сыграла важную роль в развитии технологий распознавания речи: в 1962 году компания представила устройство «Shoebox». Эта система умела распознавать 16 разных слов и стала серьезным прорывом после изобретения Bell Labs в 50-х годах ХХ века. Однако IBM не остановилась на достигнутом: результатом инновационных разработок на протяжении последующих лет стал запуск приложения VoiceType Simply Speaking в 1996 году. Это программное обеспечение для распознавания речи содержало 42 тысячи словарных слов на английском и испанском языках, а также включало орфографический словарь на 100 тысяч слов. На основе первых средств распознавания речи с ограниченным словарем возникла технология, которая в настоящее время широко применяется в различных отраслях, включая автомобильную промышленность, ИТ и здравоохранение. Новейшие достижения в сфере глубокого обучения и больших данных ускоряют темпы внедрения данной технологии. По данным исследования (внешняя ссылка), к 2025 году оборот рынка этих решений составит 24,9 млрд долларов США.

Основные возможности эффективных решений для распознавания речи

На сегодняшний день доступно множество приложений и устройств для распознавания речи, при этом в более передовых решениях применяются технологии искусственного интеллекта и машинного обучения. Для понимания и обработки человеческой речи они объединяют грамматику, синтаксис, структуру и состав звуковых и речевых сигналов. Идеальное решение способно самообучаться с каждым новым взаимодействием.

Лучшие экземпляры таких систем позволяют организациям настраивать и адаптировать технологию с учетом конкретных требований — от языка и нюансов речи до распознавания бренда. Например:

  • Весовые коэффициенты для языка: использование весовых коэффициентов для наиболее часто употребляемых слов (например, названий продуктов или профессиональных терминов, отсутствующих в основном словаре) позволяет повысить точность распознавания.
  • Маркировка источника речи: создание расшифровки с обозначением реплик каждого участника разговора.
  • Адаптация к акустической обстановке: отслеживание акустических сигналов. Систему можно научить адаптироваться к изменениям акустических условий (например, уровня шума в контактном центре) и стиля речи (например, тона голоса, громкости и скорости речи).
  • Фильтрация ненормативной лексики: с помощью фильтров можно обнаруживать определенные слова или фразы с целью их исключения из результатов обработки речи.

Тем временем технологии распознавания речи продолжают развиваться. IBM и другие компании ведут успешные разработки сразу по нескольким направлениям с целью повышения эффективности взаимодействия между человеком и компьютером.

Алгоритмы распознавания речи

Случайности и неточности, характерные для человеческой речи, усложняют задачу разработки. Эта область компьютерных наук сочетает в себе лингвистику, математику и статистику и по праву считается одной из самых сложных. Системы распознавания речи состоят из нескольких компонентов, таких как устройство речевого ввода, функции выделения признаков, векторы признаков, модули расшифровки и представления результатов в виде слов. Модуль расшифровки использует акустические модели, словарь произношения и языковые модели для определения результата.

Для оценки качества технологии распознавания речи применяются такие показатели, как степень точности, т. е. процент неправильно распознанных слов (WER), и скорость. На точность распознавания влияет множество факторов, включая произношение, акцент, тон, громкость и фоновые помехи. Главная цель систем распознавания речи — обеспечить такой коэффициент ошибок, который соответствовал бы разговору двух людей. В исследовании Lippmann (внешняя ссылка, PDF, 344 КБ) приводится показатель WER на уровне 4%, однако воспроизвести результаты, описанные в данной публикации, довольно сложно.

Подробнеео достижениях IBM в области распознавания речи можно узнать здесь.

Для преобразования речи в текст и повышения точности результатов применяются разнообразные алгоритмы и вычислительные методы. Ниже приводится краткое описание наиболее популярных методов:

  • Обработка данных на естественном языке (NLP): хотя NLP и не является обязательным алгоритмом для распознавания речи, это направление искусственного интеллекта сосредоточено на взаимодействии человека и компьютера с помощью речи и текста. Во многих мобильных устройствах распознавание речи встроено в системы голосового поиска (например, Siri) или программы для переписки.
  • Скрытые марковские модели (HMM): разработаны на основе модели цепи Маркова, согласно которой вероятность определенного состояния зависит от текущего состояния, а не предыдущих состояний. Если модель цепи Маркова полезна для наблюдаемых событий, таких как вводимый текст, то скрытые марковские модели позволяют включать в вероятностную модель скрытые события, например теги частей речи. Они применяются в качестве моделей последовательностей в технологии распознавания речи для присвоения меток каждому элементу последовательности — словам, слогам, предложениям и т. д. Метки создают связи с входными данными, что позволяет определить наиболее подходящую последовательность меток.
  • N-грамма: простейший тип языковой модели, согласно которой вероятности присваиваются предложениям или фразам. N-грамма представляет собой последовательность из N слов. Например, фраза «закажи нам пиццу» — триграмма (или 3-грамма), а фраза «пожалуйста, закажи нам пиццу» — 4-грамма. Для повышения эффективности распознавания и точности анализируется грамматика и вероятность определенных последовательностей слов.
  • Нейронные сети: применяются в основном для алгоритмов глубокого обучения и обрабатывают обучающие данные, имитируя деятельность человеческого мозга с использованием нескольких слоев узлов. Каждый узел состоит из входных данных, весовых коэффициентов, смещения (или порогового значения) и выходных данных. Если результат превышает заданное пороговое значение, узел активируется и передает данные на следующий слой сети. Нейронные сети обучаются с использованием контролируемых методов обучения, корректируя результаты с помощью функции потерь на основе алгоритма градиентного спуска. В целом нейронные сети демонстрируют более высокую точность и могут принимать больше данных, однако это происходит за счет снижения производительности, поскольку скорость их работы обычно ниже в сравнении с традиционными языковыми моделями.
  • Диаризация (или разделение) дикторов: алгоритмы разделения дикторов обнаруживают и разделяют речевой поток на сегменты по количеству говорящих. Это помогает программам эффективнее выделять отдельных участников разговора и часто используется в контрактных центрах для разделения речи клиентов и торговых агентов.

В блоге Watson вы сможете узнать, как IBM использует модели разделения дикторов в своих услугах преобразования речи в текст.

Практическое применение технологии распознавания речи

Технология распознавания речи широко применяется в различных отраслях, экономя время и даже спасая жизни. Ниже приведены некоторые примеры практического использования.

Автомобильная промышленность: средства распознавания речи повышают безопасность вождения с помощью голосовых систем навигации и функций поиска в автомобильных радиостанциях.

Современные технологии: виртуальные помощники все активнее входят в повседневную жизнь людей, особенно в мобильных устройствах. Например, с помощью голосовых команд можно выполнить голосовой поиск в смартфоне, обратившись к Google Ассистенту или Apple Siri, либо прослушать музыку, обратившись к Amazon Alexa или Microsoft Cortana. Непрерывная интеграция в привычные нам продукты будет стимулировать развитие «Интернета вещей».

Здравоохранение: врачи и медсестры используют приложения с функциями диктовки для сбора и обработки информации о диагнозах пациентов и схемах лечения.

Продажи: технология распознавания речи имеет широкое применение в сфере продаж. С ее помощью контактные центры могут обрабатывать тысячи телефонных звонков клиентов для выявления общих закономерностей и проблем. Кроме того, когнитивные чатботы могут общаться с посетителями веб-сайта, отвечать на общие вопросы и обрабатывать базовые запросы, не дожидаясь освобождения сотрудника контактного центра. В каждой из этих ситуаций системы распознавания речи помогают сократить время устранения проблем, возникающих у потребителей.

Безопасность: по мере внедрения технологий в повседневную жизнь людей протоколы безопасности становятся все более актуальными. Аутентификация по голосу является эффективным способом обеспечения безопасности.

Узнайте, каким образом компании используют программное обеспечение для распознавания речи, чтобы в режиме реального времени индексировать аудиоданные, транслируемые радиостанциями. Ознакомьтесь с примером внедрения в Audioburst здесь.

Распознавание речи и IBM

Компания IBM стояла у истоков разработки инструментов и услуг в области распознавания речи. Наши решения позволяют организациям автоматизировать сложные бизнес-процессы, обеспечивая при этом анализ важной информации.

  • IBM Watson Speech to Text — это облачное решение, использующее алгоритмы глубокого обучения на основе ИИ для создания настраиваемых процессов преобразования речи в текст, опираясь на знания в области грамматики, структуры языка и состава звуковых/голосовых сигналов.
  • IBM Watson Text to Speech преобразует письменный текст в естественную речь с целью повышения качества обслуживания и степени вовлеченности клиентов, тем самым улучшая доступность для пользователей, говорящих на разных языках, за счет разнообразных вариантов взаимодействия.

Более подробная информация о том, как приступить к использованию технологии распознавания речи, приведена на страницах IBM Watson Speech to Text и IBM Watson Text to Speech.

Получите IBMid и создайте учетную запись IBM Cloud.