Научно-образовательный кластер CLAIM

CLAIM – научно-образовательный кластер

Г.А.Черкасова

Автоматизация построения баз лингвистических знаний диалоговых систем

Диалоговые системы являются важнейшей составной частью интеллектуальных технических (компьютерных) систем, предназначенных для переработки информации и управления в таких областях человеческой деятельности, как промышленность, наука, образование и другие. Основными требованиями, которые предъявляются к диалоговым системам, сводятся к обеспечению естественного и дружественного взаимодействия с пользователями интеллектуальных систем в области их профессиональной деятельности. Эти требования достигаются при использовании в качестве языка диалога естественного русского языка.

Машинный фонд русского языка является концентратором знаний о языке, может служить "технологической основой для разработки систем общения с ЭВМ и обработки данных на естественном языке" [4, стр.27]. МФ РЯ следует рассматривать прежде всего как источник разнообразных сведений о языке, которые могут использоваться для построения диалоговых систем различного типа, ориентированных на конкретные предметные области деятельности людей, различные группы пользователей. В качестве источников конкретных знаний о языке могут выступать программно-источниковые пакеты (информационно-программные изделия) и информационные технологии (методы и методики) переработки естественно-языковых данных.

Программно-источниковые пакеты МФ РЯ это — во-первых, автоматизированные словари, содержащие множества языковых единиц и характеризующие их параметры; во-вторых, текстовые источники различных стилей и жанров, характеризующие предметные области и подъязыки; в-третьих, лингвистические процессоры, являющиеся формальными моделями естественного языка. Информационные технологии МФ РЯ это — методы, алгоритмы и инструментальные программные средства организации, проведения и исследования естественно-языковых знаний, примерами которых являются: частотный анализ текстов и словарей, методика ассоциативного эксперимента, различные алгоритмы построения конкордансов, методы получения системных выборок языковых единиц из источниковых корпусов, методика безнаборного издания словарей и др.

Ядром диалоговой системы взаимодействия пользователя с интеллектуальными системами на естественном языке является банк знаний о языке, в состав которого входят база лингвистических знаний (БЛЗ) и система управления.

Разработка и наполнение БЛЗ представляет собой задачу значительной трудности, из-за трудоемкости и сложности процессов формализации знаний о языке диалогового взаимодействия. Программно-источниковые пакеты и информационные технологии МФ РЯ могут служить источником уже формализованных знаний о естественном русском языке и выступать в роли инструментальных средств создания и наполнения БЛЗ конкретных диалоговых систем.

В состав БЛЗ диалоговой системы входят словарная компонента и тезаурус. Словарная компонента представляет собой систему словарей языковых единиц различных уровней: текстов, сверхфразовых единств и предложений, слов, словосочетаний, а также основ слов и аффиксов. Основным и обязательным для систем общения человека с ЭВМ является лексический словарь, который содержит описание множества слов или основ слов, характеризующих предметную область диалога. Тезаурус содержит синтаксические и семантические отношения между языковыми единицами, включенными в состав словарной компоненты.

Составными частями системы управления являются: лингвистический процессор, система создания БЛЗ и система манипулирования знаниями.

Система создания БЛЗ решает три группы задач. Первая это определение и задание структур хранения лингвистических знаний. Вторая — первоначальное наполнение выбранных структур общими знаниями о языке общения, языке представления знаний, диалоге и формирование естественно-языкового (текстового) описания предметной области диалога. Третья группа решает задачу пополнения БЛЗ конкретными знаниями о подъязыках пользователей.

Состав и структура системы создания баз лингвистических знаний диалоговой системы определяются многими факторами, важнейшими среди которых являются следующие: характеристика языка диалога и совокупность источников, содержащих сведений о нем; степень предшествующей проработки и наличие прототипа создаваемой системы; тип языка представления знаний в интеллектуальной компьютерной системе, с которой должны общаться пользователи; имеющиеся на разработку временные и стоимостные ресурсы.

Структура и состав системы создания БЛЗ диалоговой системы представлены на следующем ниже рисунке.

Рисунок 1.

Задачи определения и создания структур хранения лингвистических знаний могут быть решены с помощью специальных процедур, разработанных с использованием различных алгоритмических языков и операционных систем ЭВМ, на основе средств СУБД (универсальных или специальных).

Задачи наполнения и пополнения БЛЗ имеют значительную трудоемкость, так как словарная компонента реальных диалоговых систем различного назначения включает от нескольких тысяч до сотен тысяч словарных статей языковых единиц. Это требует десятки человеко-лет подготовительной работы: составление списков слов, словосочетаний, определение их морфологических, грамматических и других параметров; построение классификаторов и тезаурусов; отображение выделенных языковых единиц на множество единиц и структур языка представления знаний в интеллектуальной компьютерной системе.

Средства создания и наполнения в той или иной степени автоматизируют эту подготовительную работу и сам процесс ввода знаний в БЛЗ. Автоматизированное наполнение БЛЗ позволяет ввести не все, а лишь часть знаний о языке диалога. При этом задействованы лингвистический процессор, различные процедуры информационных технологий и специальные программные средства.

Автоматизированное наполнение словарной компоненты представляет процесс из следующих шагов:

Шаг 1. Формирование естественно-языкового (текстового) описания предметной области диалога, учитывающего информационные потребности пользователей.

Шаг 2. Выделение множества языковых единиц с помощью специальных процедур.

Шаг 3. Определение индивидуальных инвентариев языковых единиц и занесение их в БЛЗ.

Шаг 4. Установление синтаксических, семантических и ситуативных отношений между языковыми единицами.

Шаг 5. Анализ полученных результатов специалистом и инженером знаний, внесение изменений и корректур.

На первом шаге множества различных технических описаний, документов, заданий, справочников, классификаторов и других текстовых источников, описывающих предметную область диалога, вводятся в ЭВМ и записываются в словарь текстов. При этом пользуются следующими способами: переписывают тексты из ранее накопленных баз лингвистических знаний аналогичных предметных областей, вводят тексты с помощью текстовых редакторов или считывающих устройств. Кроме этого часть текстов может быть получена из издательств и типографий, из создаваемого в настоящее время "Банка переизданий" [2], конвертирована в форматы и структуры, требуемые БЛЗ. При этом следует ограниченно использовать тексты, описывающие наряду с требуемой предметной областью диалога и другие области реального мира, так как это приводит к получению значительного количества "лишних" языковых единиц, которые приходится удалять на последующих этапах.

На втором шаге проводится обработка текстового описания предметной области и выделяется множество языковых единиц различных уровней. При этом используются как процедуры лингвистического процессора (выделение словоформ, морфологический анализ слов), так и процедуры построения частотных словарей и лемматизаторы. Последовательно выполняются следующие операции:

автоматически строится словник всех встретившихся в текстовом описании предметной области словоформ;
создается частотный словарь словоформ;
выполняются процедуры морфологического анализа на основе словаря аффиксов и словаря ранее созданных основ, процедуры статистического морфоанализа и также лемматизация;
полученное множество слов или основ слов записывается в БЛЗ, при этом заполняется заглавная зона лексического словаря.
выделяются помеченные в тексте словосочетания, фразы и предложения и заносятся в заглавные зоны соответствующих словарей базы лингвистических знаний.

На третьем шаге определяются значения индивидуальных инвентариев языковых единиц, которые заносятся в морфологическую, синтаксическую, семантическую, прагматическую и другие зоны лексического словаря. Для получения параметров конкретных языковых единиц применяются следующие три способа. В первом способе используют знания, содержащиеся в ранее созданных словарях БЛЗ таких же или аналогичных предметных областей. Во втором способе используются статистические закономерности, характерные для русского языка. Третий способ позволяет специалисту в диалоговом режиме для предъявляемых языковых единиц указывать значения их инвентариев, которые и заносятся в словарную компоненту баз лингвистических знаний диалоговой системы. Каждый способ может применяться независимо от другого. Параметризация первыми двумя способами выполняется автоматически и требует незначительной последующей корректировки. Последний способ автоматизирует работу специалиста-лингвиста, знающего структуру и организацию знаний в БЛЗ.

В первом способе параметризации полученные на втором шаге языковые единицы отыскиваются в "готовых" словарях ранее созданных БЛЗ. Поиск осуществляется по заглавным зонам словарей. В случае совпадения поисковой языковой единицы с данными заглавных зон, информация из других зон словарной компоненты переносится в создаваемый словарь. При этом данные могут менять форматы записей и коды, а также выбираться и заноситься не все, а только часть нужных параметров и их значений. Особенно это касается содержимого семантической и прагматической зон, так как для новой предметной области некоторые языковые единицы могут частично или полностью изменять смысловое значение, и обязательно должны заменяться ссылки на предметный код интеллектуальной системы.

Второй способ определения значений параметров языковых единиц основан на следующих закономерностях: во-первых, в русском языке имеет место сильная корреляция между грамматической информацией к словам и буквенным оформлением их концов. По совместным наборам суффиксов и окончаний можно с вероятностью 90% приписать словам морфологические характеристики и парадигматический класс, а также правильно выделить основу [1]. Во-вторых, результаты, полученные на основе толкового словаря новых слов, показывает, что для 50% слов смысл получается правильно как сумма смыслов составляющих морфем; для 20% слов смысл получается правильно только частично, при этом смысл целого не противоречит смыслу частей, хотя и не равен их сумме [5]. Второй способ реализован как специальная процедура, которая на основе словаря окончаний и словаря буквенных концов слов, учитывая последнюю букву основы слова и используя лингвистический процессор, получает вероятностные значения морфологического, парадигматического и синтаксического классов и заносит их в словарную компоненту. В случае неоднозначности результата информация выдается для корректировки специалисту на печать или экран дисплея.

Третий способ определения значений индивидуальных инвентариев организован в виде диалоговой процедуры, при которой на экран дисплея последовательно выдаются языковые единицы, а специалист указывает для них значения морфологических, грамматических и других инвентариев, соответствующих структуре БЛЗ. Эти данные кодируются и заносятся в соответствующие зоны словарей.

На четвертом шаге устанавливаются различные связи между языковыми единицами. При этом используются следующие способы:

Во-первых, учитывая частоту совместной встречаемости слов и согласование их по грамматическим характеристикам, выделяются "возможные" словосочетания, которые после проверки инженером знаний записываются в словарь словосочетаний. Для всех слов, входящих в словосочетание, автоматически заносится соответствующая ссылка в лексический словарь.

Во-вторых, на основе анализа синтаксических структур предложений и текстов, вхождения в них лексических единиц, семантика которых определяет семантические, ситуативные и логические связи, устанавливаются связи между некоторыми языковыми единицами. В таблице, приведенной ниже, указаны некоторые такие синтаксические структуры и лексические единицы и соответствующие им типы связей.

Таблица

В-третьих, исследуя совокупность контекстов языковых единиц вычисляются статистические критерии, называемые "сила связи", и по их величине устанавливаются "статистические" связи. Так как количество различных языковых единиц в текстовом описании предметной области велико и насчитывает сотни тысяч, изучение всех возможных связей требует значительных временных затрат. Целесообразно из множества языковых единиц выделять часть, которую называют — "понятия" предметной области интеллектуальной системы, и для них строить тезаурус. Количественно сила связи определяется с помощью различных методов кластерного анализа. Контекстом может быть целое предложение или его часть, группа предложений, абзац, часть текста или целый текст, а также дефиниции в толковых словарях [3], содержащие исследуемое понятие. Полученные "статистические" связи после анализа их величин именуются инженером знаний и заносятся в тезаурус БЛЗ.

В-четвертых, для выявления связей между языковыми единицами можно использовать методику ассоциативного эксперимента [6]. Для этой цели необходимо анкетирование пользователей диалоговой системы. Для предлагаемых в каждой анкете понятий предметной области пользователи указывают множество связанных с ним других понятий. После статистической обработки заполненных анкет выделяются "ассоциативные" связи между отдельными языковыми единицами, которые включают наряду с понятиями также отдельные слова и словосочетания, встретившиеся в анкетах. Анализ и интерпретация выявленных связей позволяет при участии инженера знаний указывать конкретный тип семантических, синтаксических и других отношений между языковыми единицами, которые и включаются в БЛЗ.

Выполнение первых и особенно четвертого шагов требует анализа получаемых результатов специалистом по создаваемой предметной области диалога и инженером знаний.

Рассмотренная технология позволяет автоматизировать работу по созданию баз лингвистических знаний и формирует первоначальное ядро, которое пополняется и корректируется на последующих этапах.

Литература

1	Белоногов Г.Г., Новоселов А.П. Автоматизация процессов накопления, поиска и обобщения информации. - М.: Наука, Гл.ред. физ.-мат.лит., 1979.-256 с.
2	Ефремов Ю. Банк переизданий // Полиграфия.-1988.-N 6. 3.
3	Караулов Ю.Н., Молчанов В.И., Афанасьев В.А. Анализ метаязыка словаря с помощью ЭВМ. - М.: Наука, 1982.-96 с.
4	Машинный фонд русского языка: идеи и суждения. - М.: Наука, 1986.-240 с.
5	Представление знаний в человеко-машинных и робототехнических системах. В 4-х томах. Том А. Фундаментальные исследования в области представления знаний. - М.: ВЦ АН СССР, ВИНИТИ, 1984.-214 с.
6	Черкасова Г.А. Формирование баз лингвистических знаний с использованием технологии ассоциативного эксперимента// Третья всесоюзная конференция по созданию Машинного фонда русского языка: Тез.докл.(Часть 1).-М.,1989.-с.197-199.