В настоящее время существует много разных словарей различного назначения. Их количество постоянно увеличивается, сами они оказываются очень громоздкими, и становится невыгодным хранить их в бумажном виде. Актуальной в любой сфере стала проблема хранения словарей. Решением данной проблемы является нахождение более удобной формы представления словарной информации. Одной из таких форм являются базы данных словарей и энциклопедий в электронном виде. В данной статье рассматриваются вопросы создания «Электронного артикуляционного словаря».
Начнем с того, что сначала разберемся, что означает слово "артикуляция". Артикуляция, точнее, артикуляция губ - это их движение во время произношения слов, слогов и звуков, т.е. то, что мы видим на губах говорящего.
В русском языке губы участвуют заметно для глаза при произнесении двенадцати звуков [Миронова, 1980]:
«А» - губы не напряжены, рот раскрывается довольно широко;
«О» - губы округляются, ротовое отверстие меньше, чем при «А»;
«У» - губы вытягиваются трубочкой, ротовое отверстие маленькое, круглое;
«П», «Б», «М» - губы смыкаются и затем размыкаются;
«Ф», «В» - нижняя губа приближается к верхним зубам;
«Ш», «Ж», «Ч», «Щ» - губы округляются и раскрываются «рупором».
Видимое речевое движение является признаком определенного звука речи. При восприятии слов и фраз эти видимые движения губ становятся опорными.
Составим таблицу опорных звуков (в слогах).
Как видите, в вертикальных рядах меняется гласный звук (второй звук в слоге), а в горизонтальных рядах меняется согласный звук (первый в слоге).
п, б, м
|
ф, в
|
ш, ж, ч, щ
|
|
А
|
ПА
|
ФА
|
ША
|
О
|
ПО
|
ФО
|
ШО
|
У
|
ПУ
|
ФУ
|
ШУ
|
Ы
|
ПЫ
|
ФЫ
|
ШЫ
|
Следовательно, будем рассматривать слова с такими или похожими опорными движениями губ.
Приведем пример из книги Э.В. Мироновой «Если вы перестали слышать» и проверим его на собственном опыте. Попробуем представить слова на бумаге так, как они отражаются на губах говорящего:
Пишется
|
Ощущаем,
когда сами произносим |
Видим на губах собеседника
|
ВОДА
|
В(а)ДА
|
ф(а)ДА
в |
СЕГОДНЯ
|
С(и)(в)ОДНЯ
|
- - вО - - -
ф |
МОЛОКО
|
М(а)Л(а)КО
|
П
Б(а) – (а) –О М |
ШАПКА
|
ШАПКА
|
Ш п
Ж Аб – А Ч м Щ |
Проблемы состоят в том, что, во-первых, мало опорных звуков (на губах ясно видны всего шесть различных движений); во-вторых, видимые движения губ многозначны; например, за смычкой губ может скрываться и П, и Б, и М; а «рупор» означает собой один из четырех звуков – Ш, Ж, Ч или Щ; в-третьих, быстрая речь. Кроме этого, следует заметить, что зрительный образ у всех индивидуален, т.е. к названным проблемам прибавляются индивидуальные особенности артикуляции.
Для более подробного описания нужно попытаться определить характеристики положений губ во время произношения слова. Для этого надо перенять опыт или изучить теорию по считыванию с губ у глухих, слабослышащих и поздноохглохших, что имеет важное значение для начала исследований. Рассмотрим несколько аспектов, взятых из книг по обучению таких людей.
В русском языке имеется 42 фонемы [Алякринский, 1979]: 6 гласных (а, и, о, у, ы, э) и 36 согласных (б, б’, в, в’, г, г’, д, д’, ж, з, з’, э(й), к, к’, л, л’, м’, м, н, н’, п, п’, р, р’, с, с’, т, т’, ф, ф’, х, х’, ц, ч, ш, щ). Рассмотрим теперь, какие бывают артикуляционные признаки у этих фонем, т.е. механизм образования различных гласных и согласных фонем. Известно, что по положению губ гласные О и У противопоставляются гласным А, Э, И, Ы. Сближение губ при произнесении О и У является причиной названия этих гласных лабиализированными (от латинского labia -губы). При наблюдении артикуляции можно видеть, что во время произнесения гласного У губы сближаются в большей степени, чем при произнесении О. В обоих случаях язык не виден. По положению языка гласные Э, И противополагаются гласным О, У, Ы. При произнесении Э, И кончик языка лежит внизу у передних зубов и хорошо виден при произнесении Э. Указанные гласные противополагаются гласному А, при котором вертикальный и горизонтальный размеры ротовой щели наибольшие, а язык лежит на дне полости рта. Гласные И, У, Ы являются гласными узкими и противополагаются более широким гласным А, О, при произнесении которых губы не так закрыты и язык лежит ниже. При произнесении Ы, стоящего под ударением, задняя часть спинки языка поднята, а кончик его чуть приподнимается и направлен несколько вперед. При неударном Ы язык лежит чуть ниже, и поэтому гласный более открытый. Видимые признаки артикуляции гласных И и Ы имеют много общего, в связи с этим при восприятии гласного Ы он принимается как гласный И.
Рассмотрим примеры, в которых изображаются анфас и профиль субъекта при произношении звуков.
Согласные фонемы различаются по четырем основным признакам:
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
· наличие или отсутствие вибрации голосовых связок;
· способ артикуляции;
· место артикуляции;
· наличие или отсутствие дополнительного подъема передне-средней части спинки языка к небу.
По первому признаку согласные делятся на вокализованные (от лат. vox - голос) и невокализованные. Вокализованные согласные, в которых тон голоса сочетается с резко выраженным шумом, называются звонкими. Другие вокализованные согласные, в которых шум выражен слабо и тон голоса преобладает, называются звонкими. Другие вокализованные согласные, в которых шум выражен слабо и тон голоса преобладает, называются сонатами (от лат. sono - звучу). Невокализованные согласные состоят только из шумов различного характера.
Большинство согласных, составляют пары звонких и глухих: п - б, п’- б’, т - д, т’ – д’, к – г, к’ – г’, ф - в, ф’ – в’, с - з, с’ – з’, ш – ж, х – й.
Не имеют звонкой пары глухие согласные х, ц, ч и щ. Непарными вокализованными согласными являются сонаты м, м’, н, н’, л, л’, а также фонемы р и р’.
По второму признаку согласные делятся на смычные (взрывные; переднеязычные и губные), щелевые (фрикативные; от лат. frico - тру) - однофокусные и губные, переднеязычные двухфокусные и переднеязычные плавные сонанты, среднеязычный сонант « Й », переднеязычный аффрикат « Ц », заднеязычные согласные – к, к’, г, г’, х, х’.
К губным смычным согласным относятся фонемы п, п’, м, м’, б, б’, к переднеязычным
смычным - т, т’, д, д’, н, н’. К губным щелевым относятся фонемы
ф, ф’, в, в’, к щелевым однофокусным – с, с’, з, з’.
К переднеязычным двухфокусным относятся ш, щ, ч, ж, а к переднеязычным плавным
сонантам – л, л’, р, р’.
Многие другие делят согласные несколько по-другому: помимо щелевых и смычных существуют слитные (аффрикаты; от лат. affricata - притертая ), смычно-проходные и дрожащие (вибранты; от лат. vibrare – колебать, дрожать).
К слитным они относят фонемы ц и ч, к смычно-проходным – м, м’, н, н’, л, л’; к дрожащим - р и р’.
Для щелевых согласных характерно образование на пути выдыхаемого воздуха преграды в виде узкой щели между нижней губой и верхними резцами, языком и альвеолами верхних резцов, языком и нёбом.
Слитные согласные получаются в результате мгновенной смены смычки щелью, образованной теми же органами и в том же месте.
Смычно-проходные согласные характеризуются тем, что при наличии губной или язычно-зубной смычки для выдыхаемого воздуха все же остается свободный проход через нос или по бокам языка – с обеих сторон или только с одной стороны.
По третьему признаку согласные фонемы делятся в зависимости от того, какими органами и в каком месте образуются смычка, щель, вибрация.
По этому признаку согласные, прежде всего, разделяются на губные и язычные.
В число губных входят губно-губные (двугубные) – п, п’, б, б’, м, м’ и губно-зубные – ф, ф’, в, в’. Первые характеризуются смыканием губ, вторые – образованием щели между нижней губой и верхними резцами.
В число язычных входят язычно-зубные – с, с’, з, з’, ц, т, т’, д, д’, н, н’, л, л’, язычно-альвеолярные – р, р’, язычно-передненёбные – ш, ж, ч, щ, язычно-средненёбные – к’, г’, х’, й и язычно-задненёбные к, г, х. Первая группа язычных характеризуется образованием смычки или щели между передним краем, кончиком языка или передней частью спинки языка и верхними резцами или их альвеолами. По своим акустическим особенностям из этой группы выделяются фонемы с, с’, з, з’ и ц, называемые свистящими. Согласные второй группы язычных образуются при соприкосновении или сближении с альвеолами переднего края языка, вибрирующего под напором выдыхаемого воздуха. Согласные третьей группы получаются в результате образования щели или комбинации смычки и щели между передним краем или передней частью спинки языка и передней частью неба. Акустические особенности звуков этой группы дают основание называть их шипящими. Для четвертой группы согласных характерно образование смычки или щели между средней частью языка и средней частью нёба, а для пятой – между задней частью языка и задней частью нёба.
По четвертому признаку согласные разделяются на две группы в одну из которых входят фонемы, называемые на основании производимого ими слухового впечатления мягкими, а в другую – фонемы, называемые твердыми.
Первые отличаются от вторых дополнительным элементом артикуляции - подъемом передне-средней части спинки языка к нёбу – и носят название палатализованных (от латинского palatum - нёбо).
Большинство согласных составляют пары твердых и мягких: п - п’, б – б’, м – м’, ф – ф’, в – в’, с – с’, з – з’, т – т’, д – д’, н – н’, р – р’, л – л’, к – к’, г – г’, х –х’. Непарными твердыми согласными являются ш, ж и ц, непарными мягкими – ч, щ и й.
Наглядное представление о распределении согласных по рассмотренным четырем произносительным признакам дает таблица, приведенная ниже.
Способ
артикуляции |
Участие голосового аппарата
|
Место артикуляции
|
|||||||||||||
Губные
|
Язычные
|
||||||||||||||
Губно-
губные |
Губно-зубные
|
Язычно- зубные
|
Язы-
чно- авль веол. |
Язычно-передне-нёбн.
|
Язычно- средненёбн. (пал.)
|
Язычно- задненебн. (непал.)
|
|||||||||
Непал.
|
Пал.
|
Непал.
|
Пал.
|
Непал.
|
Пал.
|
Непал.
|
Пал.
|
Непал.
|
Пал.
|
||||||
Смычные
|
Невок
Вок. |
П
|
В’
|
Т
|
Т’
|
К’
Г’ |
К
Г |
||||||||
Щелевые
|
Невок
Вок. |
Ф
В |
Ф
В’ |
С
З |
С’
З’ |
Ш
Ж |
Щ
|
Х’
Й |
Х
|
||||||
Слитные
|
Невок
Вок. |
Ц
|
Ч
|
||||||||||||
Смычно- про-
ход- ные |
Но
со- вые |
Невок
Вок. |
М
|
М’
|
Н
|
Н’
|
|||||||||
Боко-
вые |
Невок
Вок. |
Л
|
Л’
|
||||||||||||
Дрожащие
|
Невок
Вок. |
Р
|
Р’
|
||||||||||||
Необходимо отметить, что различия в артикуляции разных фонем или целых их групп далеко не всегда одинаково ярко выражены. Так, фонема «п» резко отлична по своей артикуляции от фонемы «а», но в то же время сравнительна близка к фонеме «п’» или «б’».
Группа гласных фонем в целом более резко отличается по артикуляции от невокализованных согласных, чем от вокализованных, особенно щелевых.
Внутри группы согласных довольно грубыми являются артикуляционные различия между такими, например, фонемами, как «п» и «р», «з» и «к», «ш» и «м», и значительно более тонкими – различия между фонемами «к» и «х», «т» и «д», «с» и « с’», «т’» и «к’».
Заметим, что произнесение мягких смычных (Б’, М’, П’) и твердых (Б, П, М) на видимой артикуляции не отражается. Участие голоса при образовании звонких щелевых согласных, а также подъём средней части спинки языка при образовании мягких согласных остается для наблюдателя незаметным. Графема Щ рассматривается в фонетике как сочетание двух мягких фонем ШЫШЬ или ШЬЧ, произносимых вместе. Видимые признаки артикуляции рассмотренной группы переднеязычных согласных Ш, Ж, Ч, Щ одинаковы. Переднеязычные щелевые сонанты Л и Л’, а также дрожащие сонанты Р и Р’ имеют похожие видимые признаки: через щель между верхними и нижними зубами видна часть нижней поверхности языка, кончик которого поднят кверху и либо прижат к верхним зубам и альвеолам (при Л, Л’), либо напряжен и приводятся в движение выходящей струей воздуха (при Р,Р’). Количество колебаний кончика языка зависит от фонетического положения. Однако видна только часть поднятого кверху языка. Шумные смычные переднеязычные Т, Т’ и Д, Д’ артикулируются смычкой передней части спинки языка с альвеолами и верхними зубами, а кончик языка лежит у нижних зубов. Шум согласного образуется в результате выхода воздушной струи при быстром раскрытии преграды. Сонанты носовые переднеязычные Н и Н’ артикулируются так же, как согласные Д и Д’, но с опущенным мягким небом. Видимые признаки указанной группы согласных состоят в небольшом раскрытии ротовой щели, а также щели между верхними и нижними зубами, в которой виден кончик языка. При конечном положении этих согласных (в конце слога) щель между зубами может быть очень узкой, однако в большинстве случаев удается заметить приближенный кончик языка.
Переднеязычные щелевые С, С’, З, З’ произносятся так, что кончик языка упирается в нижние зубы, а края языка прижимаются к боковым зубам и к части твердого нёба, причем посередине между передней частью языка и твердым небом образуется узкая щель в форме желобка. Воздушная струя, проходя через эту щель, производит резкий шум, напоминающий свист. Поэтому эти согласные, как говорилось выше, называют свистящими. Мягкие С’ и З’ произносятся при дополнительном подъеме средней части языка к твердому нёбу. Все это остается невидимым для читающего с губ, кроме узкой щели между верхними и нижними зубами и прижатого к ним языка. Мягкое С’ в конце слога может произноситься без видимой щели между зубами. Переднеязычный аффрикат Ц отличается от простых смычных тем, что у него смычка заканчивается очень кратким щелевым элементом. Аффрикат Ц может рассматриваться как сочетание ТС, поэтому внешние признаки скудны и похожи на артикуляцию согласных Т и С. В конечном положении аффрикат Ц может также произноситься без видимой щели между зубами. Щелевой среднеязычный сонант Й произносится следующим образом: кончик языка упирается в нижние зубы, боковые стороны языка – в боковые зубы, средняя часть спинки языка поднимается к твердому небу и образует посередине узкую щель, через которую проходит воздушная струя, дающая слабый шум трения согласного Й.
Заднеязычные смычные шумные К, К’ и Г, Г’ образуются в результате смычки задней части спинки языка с задним краем твердого неба и смежной с ним частью мягкого неба. Шум согласного создается при выходе воздушной струи через быстро раскрывающую преграду. Заднеязычный шумный щелевой согласный Х артикулируется сближением задней части спинки языка с задним краем твердого неба, и смежной с ним частью мягкого неба. Мягкие согласные К’, Г’, Х’ произносятся со значительным дополнительным подъемом средней части спинки языка к твердому небу. Однако все это остается невидимым для читающего с губ. Внешние признаки этой группы согласных ограничиваются щелью между верхними и нижними зубами, от которых язык отведен в глубь полости рта. Если согласные К, Г, Х следуют за узкими гласными И, У, Ы, то обычно зубная щель узка, и язык не виден совсем. Величина губной щели зависит от характера последующей или предыдущей гласной. Благодаря скудным внешним признакам заднеязычные согласные относятся к числу трудно-различимых фонем по видимой артикуляции.
Не менее важную роль играют ударные и безударные слоги. Так, например, при произношении слова ПЛАТА, где ударение падает на первый слог артикуляция буквы «А» значительно по размерам больше, чем артикуляция буквы «А» во втором слоге, который является безударным. [Алякринский, 1979].
Да и по длительности тоже фонемы тоже отличаются. Средняя длительность разных фонем колеблется, по данным Л. А. Варшавского и И.М. Литвака, от 20 до 260мсек, причем максимальная длительность отмечена для фонемы «а», а минимальная для фонемы «п». Длительность гласных значительно варьирует в зависимости от позиционных условий (от степени ударности). Так, под ударением в начале слова фонема «а» длится 20мсек., тогда как в безударном слоге та же фонема длится всего 180 мсек. В середине же слов длительность фонемы «а» сокращается в удаленных от ударного слога позициях до 80 мсек. Среди согласных звонкие взрывные оказываются в общем более длительными, чем парные глухие; а глухие щелевые – более длительными, чем парные звонкие и т.д.
Длительность гласных в русском языке не имеет самостоятельного значения в качестве признака для различения фонем. Что же касается согласных, то по данным Г.Цеммеля, при резком укорочении фрикативных согласных они начинают восприниматься как взрывные: х как к, ф как п, с и ш как т.
Однако в общем колебания в длительности произнесения фонем, наблюдаемые в русской речи, не имеют существенного значения для их опознавания. Изменения длительности той или иной фонемы определяются различными позиционными и комбинаторными условиями, связаны с ударением и интонацией.
Присущие каждой фонеме форманты, а также отчасти интенсивность и длительность звучания являются теми ее объективными свойствами, которые позволяют нам опознавать фонемы и отличать их друг от друга в процессе восприятия речи. Человеческий мозг, а не машина, иногда обращает внимание на длительность. Ведь, например, слова ДВА и ДВАДЦАТЬ для глаза по артикуляции почти одинаковы, а различия в том, что по длительности слово ДВАДЦАТЬ больше, чем слово ДВА, а артикуляция, заметьте, неподвижна до конца слова. [Миронова, 1999].
Да и нужно заметить, что одно и тоже слово может произноситься одним и тем же субъектом немного по-разному: немножко другая артикуляция, которая по размерам отличается на какие-то доли единиц от предыдущих произношений и несколько другой темп речи.
Некоторые исследования показали, что многие люди лучше понимают в профиль многие фразы, чем в анфас. Отсюда вытекает, что одни понимают с губ лучше в анфас, а другие в профиль. Естественно это зависит и от информативности (четкости) диктора: у одних хорошая четкая речь, повышенная артикуляция, у других не очень, т.е. либо верхняя губа двигается, а нижняя нет, и наоборот.
В заключение надо заметить, что каждый человек обладает индивидуальными особенностями видимой артикуляции, разборчивость которой для зрительного восприятия ее другим человеком варьирует в широких пределах.
Помимо общей динамики артикуляции, у дикторов выявляется еще различная четкость артикулирования различных групп согласных. Это подтверждается отсутствием корреляции рангов при произнесении фраз со словами, содержащими разное количество сгубленных и неогубленных согласных, а также данными фонемного анализа материалов, полученных при распознавании бессмысленных слогов по артикуляции разных дикторов. Отдельные дикторы произносят некоторые группы согласных настолько нечетко, что разборчивость этих групп согласных может быть низкой или даже равной нулю.
По данным В.В. Алякринского включение в эксперимент по изучению зрительного восприятия слогов нормальнослышащих студентов позволило получить новые данные о физиологических пределах восприятия фонем по видимой артикуляции людьми с нормальным слухом. Воспринимая по артикуляции знакомого диктора слоги, нормальнослышащие студенты показали результаты, которые оказались лучшими по сравнению с результатами восприятия этих же слогов позднооглохшими школьниками по артикуляции незнакомого диктора. Тот факт, что в нашем пробном эксперименте студенты с нормальным слухом дали по результатам восприятия слогов относительно хорошие результаты, говорит о том, что нормальнослышащие люди, как и люди с нарушенным слухом, могут воспринимать фонемы по видимой артикуляции.
С другой стороны, физиологические возможности зрительного восприятия людей с нарушенным слухом, имеющих опыт чтения с губ, ограничены. Здесь уместно привести данные, полученные В. И. Бельтюковым [Бельтюков, 1970] и С. В. Чадовой в работе со взрослыми оглохшими, хорошо читающими с губ, и глухими учащимися школы. Речевой материал (слоги) был воспринят взрослыми оглохшими в среднем в 30.1% случаев. Эти же слоги были повторены сурдопедагогом С. В. Чадовой 100 глухим школьникам, учащимся 2–11 классов. Глухие школьники плохо владели речью, плохо читали с губ, но распознали 28.1% фонем. Это говорило о том, что зрительное восприятие фонем взрослыми оглохшими, хорошо читающими с губ связную речь, так же ограничено, как и у глухих учащихся. Следовательно, полноценное распознавание устной речи по видимой артикуляции связано с последующими этапами лингвистической обработки информации (фонетической, лексической, морфологической и смыслового анализа), а также ее избыточной информативностью и встречной активностью.
Электронный артикуляционный словарь (ЭАС) создается для людей с пониженным слухом, которые могут изучить артикуляцию с помощью компьютера. Например, неслышащие люди очень хотят, чтобы их переводчик целый день по их желанию переводил всё, что хотите, например, повторять несколько раз одно и тоже слово для изучения, а это, как говорилось выше, трудоемкая работа. Или другая ситуация: в какой-то организации для слабослышащих не хватает людей, которые могли бы обучать считыванию речи с губ. В этой ситуации может помочь компьютер.
На первом этапе создания ЭАС была предпринята попытка разработать базу данных для этой системы. Основой являлась технология видеосъемки лица диктора, произносящего несколько отобранных мною слов. Съемка изображений губ была преобразована в видеофайлы с помощью программы Abobe Premier, затем они были вмонтированы в базу данных.
Одним из вопросов, решенным на этом этапе создания ЭАС, являлся выбор среда программирования. Из рассмотренных вариантов была выбрана среда Access 97 и «Delphi 4.0».
При создании ЭАС были разработаны условно-графические образы произносимых слов и их примерные математические модели, с помощью которых можно увидеть, что размеры губ между кадрами отличны, пусть даже на доли единиц.
В ЭАС включен MediaPlayer, имеющий кнопки «Play», «Stop» и прокрутки.
В данной статье были рассмотрены важные описания артикуляций и особенности устной речи в русском языке. Они важны для разработки и создания систем понимания речи по губам, для построения распознающих и синтезирующих информационных роботов, а также для автоматизированных диалоговых и экспертных систем различного назначения.
Литература