Информационная технология моделирования жестовой речи

Диссертация магистра техники и технологии

Разработчик: Суслов Александр Юрьевич,
научный руководитель: Филиппович Юрий Николаевич

Аннотация

В работе проводится исследование методов моделирования и распознавания динамических жестов человека с целью создания системы автоматизированного сурдоперевода. В качестве предмета исследования выступают жесты языка глухонемых для предметной области «Информатика и вычислительная техника». В ходе исследования были разработаны методы и алгоритмы сегментации и распознавания динамических жестов, а также создан реализующий их программный комплекс.

Описание проекта

Жесты рук являются неотъемлемой частью средств коммуникации между людьми в обществе и составляют большую часть информационной составляющей невербальной речи. Очень часто они сопровождают или заменяют устную речь в процессе общения. Кроме того, жесты могут быть использованы в качестве средства взаимодействия с компьютерами.

Исследования в области распознавания жестов направлены на создание системы, которая сможет идентифицировать определенные человеческие жесты и использовать их для передачи информации или для управления различными устройствами. Несмотря на свою интуитивную понятность, термин «распознавание жестов» различными исследователями трактуется по-разному. Очень часто распознавание жестов ведется с использованием специальных устройств, таких, как перчатки с различными датчиками или даже с помощью джойстика. В данной работе под понятием «распознавание жестов» понимается процесс классификации динамических жестов человека, ввод которых осуществляется с помощью видеокамеры (аналогично человеческому зрению).

Таким образом, при распознавании жестов необходимо обнаруживать на видеоизображении руки человека и прослеживать изменение их положения или формы с течением времени. Такая постановка задачи объясняется тем, что круг потенциальных пользователей систем распознания жестов включает в себя большое число людей, не способных приобрести дорогое оборудование, но весьма нуждающихся в системах, способных понимать жесты. Речь идёт об инвалидах, слабослышащих, для которых жествовая речь является основным средством коммуникации.

Актуальность работы обусловлена:

Необходимостью создания новых интерфейсов взаимодействия человек-компьютер.
Необходимостью создания банка жестов языка глухонемых.
Исследованиями языка жестов и телодвижений.

Целью магистерской диссертации является разработка методов моделирования и распознавания динамических жестов.

Для достижения поставленной цели предусмотрено решение следующих задач:

Анализ современных подходов к моделированию и распознаванию жестов.
Разработка модели формального описания динамических жестов.
Разработка методов и алгоритмов сегментации и распознавания динамических жестов.
Проектирование реализующего разработанные алгоритмы программного комплекса.

В работе был разработан прототип программного комплекса, производящий занесение исходных видеофайлов в базу данных, осуществляющий настройку параметров обработки каждого видеофрагмента в интерактивном режиме, а также реализующий сегментацию и распознавание динамических жестов.

Описание программы

На главной форме окна расположен список всех жестов, присутствующих в базе данных словаря жестов (рис. 1). Каждому жесту соответствует один или несколько описывающих его видеофрагментов. В правой части окна можно просмотреть текстовое описание выбранного жеста и описывающий его видеофрагмент.

Рисунок 1 Главное окно программы

Для занесения нового видеофрагмента в словарь жестов, требуется указать соответствующий файл в файловой системе (рис. 2). Если описываемый этим видеофрагментом жест уже имеется в базе данных, его можно выбрать из выпадающего списка. В противном случае следует заполнить необходимые поля для создания нового жеста. Нажатие кнопки “Параметры сегментации” вызывает диалог настройки параметров бинаризации исходного видеофрагмента. После нажатия на кнопку "ОК", программа сканирует указанный видеофрагмент и вместе с выделенным в ходе этого процесса концептом, помещает его в базу данных.

Рисунок 2 Диалог добавления видеофрагмента

Представленные в исходных данных видеофрагменты могут быть сняты в разных условиях освещения. Кроме того, разные видеокамеры даже при съёмке одной и той же сцены могут давать разные оттенки цвета. Для устойчивой работы алгоритма, следует предварительно настроить параметры обработки для каждого из исходных видеофрагментов. Настройка будет производиться в ручном режиме путём задания числовых значений параметров алгоритма.

Окно настройки параметров бинаризации представлено на рисунке 3. Слева выводится исходный кадр видеоизображения. Справа — этот же кадр, после бинаризации. С помощью элементов управления, параметры бинаризации можно менять в интерактивном режиме.

Рисунок 3 Диалог настройки параметров бинаризации видеофрагмента

Информационная технология моделирования жестовой речи

Аннотация

Описание проекта

Описание программы

Апробация работы