CLAIM – научно-образовательный кластер

Автоматизированная система распознавания интонации, подсчета слов и устойчивых словосочетаний в речи человека

Содержание

Описание задачи

Методы обработки речи

Современное состояние предметной области

Описание задачи

В рамках проекта "Система автоматизрованного распознавания эмоций человека" разрабатывается "Автоматизированная система распознавания интонации, подсчета слов и устойчивых словосочетаний в речи человека"

В данном проекте рассматривается одно из наиболее важных приложений временных вероятностных моделей — распознавание речи. Задача состоит в том, чтобы выявить последовательность слов, произнесенных говорящим, используя акустический сигнал. Речь — это доминирующая форма общения людей, и поэтому надежное распознавание речи с помощью машин было бы чрезвычайно полезным.

Методы обработки речи

Качество системы распознавания речи зависит от качества всех ее компонентов — языковой модели, моделей произношения слов, моделей фонем и алгоритмов обработки сигналов, используемых для извлечения спектральных характеристик из акустического сигнала. Структура моделей произношения обычно разрабатывается вручную. В настоящее время для английского языка и других языков составлены большие словари произношения, но далеко не все они отличаются приемлемой точностью. При использовании таких моделей остается только правильно определить сами вероятности.

Алгоритм ожидания-максимизации Алгоритм ожидания-максимизации, или сокращенно алгоритм ЕМ (Expectation Maximization), позволяет изучать модели перехода и модели восприятия НММ без необходимости использования данных с метками. Оценки, полученные на основе данных с метками, расставленными вручную, могут использоваться для инициализации моделей; после этого управление берет на себя алгоритм ЕМ и обеспечивает обучение моделей, предназначенных для решения предъявленной задачи. Идея функционирования этого алгоритма является простой: если дана некоторая модель НММ и последовательность наблюдений, то можно использовать алгоритмы сглаживания, для вычисления вероятности каждого состояния на каждом временном интервале, а затем, с помощью несложного дополнения, использовать его для вычисления вероятности каждой пары "состояние—состояние" на последовательных временных интервалах. Эти вероятности могут рассматриваться как неопределенные метки. С помощью этих неопределенных меток можно оценить новые вероятности перехода и восприятия, после чего повторить процедуру применения алгоритма ЕМ. Такой метод гарантирует увеличение согласования между моделью и данными после каждой итерации и обычно сходится к гораздо более лучшему множеству значений параметров по сравнению с теми, которые были получены с помощью первоначальных оценок, сформированных по данным, размеченным вручную.

Современное состояние предметной области

В современных системах распознавания речи используются колоссальные наборы данных и мощные вычислительные ресурсы для обучения применяемых в них моделей. В процессе распознавания отдельно сказанных слов в хороших акустических условиях (без фонового шума или реверберации) с помощью словаря из нескольких тысяч слов и при одном дикторе точность может превышать 99%. При распознавании неограниченной непрерывной речи с разными дикторами обычной является точность 60—80%, даже при хороших акустических условиях. А при наличии фонового шума и искажений, характерных для передачи речи по телефону, точность снижается еще больше. Хотя практически применяемые системы совершенствовались в течение нескольких десятилетий, все еще остаются возможности для внедрения новых идей.


 


 © http://www.philippovich.ru.
 Cайт находится в стадии разработки. Свои замечания, вопросы, информацию о возможных ошибках и неточностях просим сообщать по адресу: andrew@philippovich.ru, anna@philippovich.ru