CLAIM – научно-образовательный кластер |
|||||||||||||||||||
|
|||||||||||||||||||
Г.А.ЧеркасоваАвтоматизация построения баз лингвистических знаний диалоговых системДиалоговые системы являются важнейшей составной частью интеллектуальных технических (компьютерных) систем, предназначенных для переработки информации и управления в таких областях человеческой деятельности, как промышленность, наука, образование и другие. Основными требованиями, которые предъявляются к диалоговым системам, сводятся к обеспечению естественного и дружественного взаимодействия с пользователями интеллектуальных систем в области их профессиональной деятельности. Эти требования достигаются при использовании в качестве языка диалога естественного русского языка. Машинный фонд русского языка является концентратором знаний о языке, может служить "технологической основой для разработки систем общения с ЭВМ и обработки данных на естественном языке" [4, стр.27]. МФ РЯ следует рассматривать прежде всего как источник разнообразных сведений о языке, которые могут использоваться для построения диалоговых систем различного типа, ориентированных на конкретные предметные области деятельности людей, различные группы пользователей. В качестве источников конкретных знаний о языке могут выступать программно-источниковые пакеты (информационно-программные изделия) и информационные технологии (методы и методики) переработки естественно-языковых данных. Программно-источниковые пакеты МФ РЯ это — во-первых, автоматизированные словари, содержащие множества языковых единиц и характеризующие их параметры; во-вторых, текстовые источники различных стилей и жанров, характеризующие предметные области и подъязыки; в-третьих, лингвистические процессоры, являющиеся формальными моделями естественного языка. Информационные технологии МФ РЯ это — методы, алгоритмы и инструментальные программные средства организации, проведения и исследования естественно-языковых знаний, примерами которых являются: частотный анализ текстов и словарей, методика ассоциативного эксперимента, различные алгоритмы построения конкордансов, методы получения системных выборок языковых единиц из источниковых корпусов, методика безнаборного издания словарей и др. Ядром диалоговой системы взаимодействия пользователя с интеллектуальными системами на естественном языке является банк знаний о языке, в состав которого входят база лингвистических знаний (БЛЗ) и система управления. Разработка и наполнение БЛЗ представляет собой задачу значительной трудности, из-за трудоемкости и сложности процессов формализации знаний о языке диалогового взаимодействия. Программно-источниковые пакеты и информационные технологии МФ РЯ могут служить источником уже формализованных знаний о естественном русском языке и выступать в роли инструментальных средств создания и наполнения БЛЗ конкретных диалоговых систем. В состав БЛЗ диалоговой системы входят словарная компонента и тезаурус. Словарная компонента представляет собой систему словарей языковых единиц различных уровней: текстов, сверхфразовых единств и предложений, слов, словосочетаний, а также основ слов и аффиксов. Основным и обязательным для систем общения человека с ЭВМ является лексический словарь, который содержит описание множества слов или основ слов, характеризующих предметную область диалога. Тезаурус содержит синтаксические и семантические отношения между языковыми единицами, включенными в состав словарной компоненты. Составными частями системы управления являются: лингвистический процессор, система создания БЛЗ и система манипулирования знаниями. Система создания БЛЗ решает три группы задач. Первая это определение и задание структур хранения лингвистических знаний. Вторая — первоначальное наполнение выбранных структур общими знаниями о языке общения, языке представления знаний, диалоге и формирование естественно-языкового (текстового) описания предметной области диалога. Третья группа решает задачу пополнения БЛЗ конкретными знаниями о подъязыках пользователей. Состав и структура системы создания баз лингвистических знаний диалоговой системы определяются многими факторами, важнейшими среди которых являются следующие: характеристика языка диалога и совокупность источников, содержащих сведений о нем; степень предшествующей проработки и наличие прототипа создаваемой системы; тип языка представления знаний в интеллектуальной компьютерной системе, с которой должны общаться пользователи; имеющиеся на разработку временные и стоимостные ресурсы. Структура и состав системы создания БЛЗ диалоговой системы представлены на следующем ниже рисунке. Рисунок 1. Задачи определения и создания структур хранения лингвистических знаний могут быть решены с помощью специальных процедур, разработанных с использованием различных алгоритмических языков и операционных систем ЭВМ, на основе средств СУБД (универсальных или специальных). Задачи наполнения и пополнения БЛЗ имеют значительную трудоемкость, так как словарная компонента реальных диалоговых систем различного назначения включает от нескольких тысяч до сотен тысяч словарных статей языковых единиц. Это требует десятки человеко-лет подготовительной работы: составление списков слов, словосочетаний, определение их морфологических, грамматических и других параметров; построение классификаторов и тезаурусов; отображение выделенных языковых единиц на множество единиц и структур языка представления знаний в интеллектуальной компьютерной системе. Средства создания и наполнения в той или иной степени автоматизируют эту подготовительную работу и сам процесс ввода знаний в БЛЗ. Автоматизированное наполнение БЛЗ позволяет ввести не все, а лишь часть знаний о языке диалога. При этом задействованы лингвистический процессор, различные процедуры информационных технологий и специальные программные средства. Автоматизированное наполнение словарной компоненты представляет процесс из следующих шагов: Шаг 1. Формирование естественно-языкового (текстового) описания предметной области диалога, учитывающего информационные потребности пользователей. Шаг 2. Выделение множества языковых единиц с помощью специальных процедур. Шаг 3. Определение индивидуальных инвентариев языковых единиц и занесение их в БЛЗ. Шаг 4. Установление синтаксических, семантических и ситуативных отношений между языковыми единицами. Шаг 5. Анализ полученных результатов специалистом и инженером знаний, внесение изменений и корректур. На первом шаге множества различных технических описаний, документов, заданий, справочников, классификаторов и других текстовых источников, описывающих предметную область диалога, вводятся в ЭВМ и записываются в словарь текстов. При этом пользуются следующими способами: переписывают тексты из ранее накопленных баз лингвистических знаний аналогичных предметных областей, вводят тексты с помощью текстовых редакторов или считывающих устройств. Кроме этого часть текстов может быть получена из издательств и типографий, из создаваемого в настоящее время "Банка переизданий" [2], конвертирована в форматы и структуры, требуемые БЛЗ. При этом следует ограниченно использовать тексты, описывающие наряду с требуемой предметной областью диалога и другие области реального мира, так как это приводит к получению значительного количества "лишних" языковых единиц, которые приходится удалять на последующих этапах. На втором шаге проводится обработка текстового описания предметной области и выделяется множество языковых единиц различных уровней. При этом используются как процедуры лингвистического процессора (выделение словоформ, морфологический анализ слов), так и процедуры построения частотных словарей и лемматизаторы. Последовательно выполняются следующие операции:
На третьем шаге определяются значения индивидуальных инвентариев языковых единиц, которые заносятся в морфологическую, синтаксическую, семантическую, прагматическую и другие зоны лексического словаря. Для получения параметров конкретных языковых единиц применяются следующие три способа. В первом способе используют знания, содержащиеся в ранее созданных словарях БЛЗ таких же или аналогичных предметных областей. Во втором способе используются статистические закономерности, характерные для русского языка. Третий способ позволяет специалисту в диалоговом режиме для предъявляемых языковых единиц указывать значения их инвентариев, которые и заносятся в словарную компоненту баз лингвистических знаний диалоговой системы. Каждый способ может применяться независимо от другого. Параметризация первыми двумя способами выполняется автоматически и требует незначительной последующей корректировки. Последний способ автоматизирует работу специалиста-лингвиста, знающего структуру и организацию знаний в БЛЗ. В первом способе параметризации полученные на втором шаге языковые единицы отыскиваются в "готовых" словарях ранее созданных БЛЗ. Поиск осуществляется по заглавным зонам словарей. В случае совпадения поисковой языковой единицы с данными заглавных зон, информация из других зон словарной компоненты переносится в создаваемый словарь. При этом данные могут менять форматы записей и коды, а также выбираться и заноситься не все, а только часть нужных параметров и их значений. Особенно это касается содержимого семантической и прагматической зон, так как для новой предметной области некоторые языковые единицы могут частично или полностью изменять смысловое значение, и обязательно должны заменяться ссылки на предметный код интеллектуальной системы. Второй способ определения значений параметров языковых единиц основан на следующих закономерностях: во-первых, в русском языке имеет место сильная корреляция между грамматической информацией к словам и буквенным оформлением их концов. По совместным наборам суффиксов и окончаний можно с вероятностью 90% приписать словам морфологические характеристики и парадигматический класс, а также правильно выделить основу [1]. Во-вторых, результаты, полученные на основе толкового словаря новых слов, показывает, что для 50% слов смысл получается правильно как сумма смыслов составляющих морфем; для 20% слов смысл получается правильно только частично, при этом смысл целого не противоречит смыслу частей, хотя и не равен их сумме [5]. Второй способ реализован как специальная процедура, которая на основе словаря окончаний и словаря буквенных концов слов, учитывая последнюю букву основы слова и используя лингвистический процессор, получает вероятностные значения морфологического, парадигматического и синтаксического классов и заносит их в словарную компоненту. В случае неоднозначности результата информация выдается для корректировки специалисту на печать или экран дисплея. Третий способ определения значений индивидуальных инвентариев организован в виде диалоговой процедуры, при которой на экран дисплея последовательно выдаются языковые единицы, а специалист указывает для них значения морфологических, грамматических и других инвентариев, соответствующих структуре БЛЗ. Эти данные кодируются и заносятся в соответствующие зоны словарей. На четвертом шаге устанавливаются различные связи между языковыми единицами. При этом используются следующие способы: Во-первых, учитывая частоту совместной встречаемости слов и согласование их по грамматическим характеристикам, выделяются "возможные" словосочетания, которые после проверки инженером знаний записываются в словарь словосочетаний. Для всех слов, входящих в словосочетание, автоматически заносится соответствующая ссылка в лексический словарь. Во-вторых, на основе анализа синтаксических структур предложений и текстов, вхождения в них лексических единиц, семантика которых определяет семантические, ситуативные и логические связи, устанавливаются связи между некоторыми языковыми единицами. В таблице, приведенной ниже, указаны некоторые такие синтаксические структуры и лексические единицы и соответствующие им типы связей. Таблица В-третьих, исследуя совокупность контекстов языковых единиц вычисляются статистические критерии, называемые "сила связи", и по их величине устанавливаются "статистические" связи. Так как количество различных языковых единиц в текстовом описании предметной области велико и насчитывает сотни тысяч, изучение всех возможных связей требует значительных временных затрат. Целесообразно из множества языковых единиц выделять часть, которую называют — "понятия" предметной области интеллектуальной системы, и для них строить тезаурус. Количественно сила связи определяется с помощью различных методов кластерного анализа. Контекстом может быть целое предложение или его часть, группа предложений, абзац, часть текста или целый текст, а также дефиниции в толковых словарях [3], содержащие исследуемое понятие. Полученные "статистические" связи после анализа их величин именуются инженером знаний и заносятся в тезаурус БЛЗ. В-четвертых, для выявления связей между языковыми единицами можно использовать методику ассоциативного эксперимента [6]. Для этой цели необходимо анкетирование пользователей диалоговой системы. Для предлагаемых в каждой анкете понятий предметной области пользователи указывают множество связанных с ним других понятий. После статистической обработки заполненных анкет выделяются "ассоциативные" связи между отдельными языковыми единицами, которые включают наряду с понятиями также отдельные слова и словосочетания, встретившиеся в анкетах. Анализ и интерпретация выявленных связей позволяет при участии инженера знаний указывать конкретный тип семантических, синтаксических и других отношений между языковыми единицами, которые и включаются в БЛЗ. Выполнение первых и особенно четвертого шагов требует анализа получаемых результатов специалистом по создаваемой предметной области диалога и инженером знаний. Рассмотренная технология позволяет автоматизировать работу по созданию баз лингвистических знаний и формирует первоначальное ядро, которое пополняется и корректируется на последующих этапах. Литература
|
|||||||||||||||||||
© НОК CLAIM, 2006-2012. Замечания, вопросы и сведения об ошибках просим сообщать в форуме или присылать администратору сайта. |
|