CLAIM – научно-образовательный кластер

Г.А.Черкасова

Формирование баз лингвистических знаний с использованием технологии ассоциативного эксперимента

Производственно-прикладная ориентированность Машинного фонда русского языка или прикладной подход к оценке его назначения в концентрированном виде представляет основные результаты лингвистических и филологических фундаментальных научных исследований, позволяет судить об их включенности в процесс информатизации общества, а через него и в технический прогресс. Интеллектуализация процессов переработки информации и управления техническими системами предполагает использование естественного языка в качестве средства взаимодействия человека с ними.

В рамках данного подхода программно-источниковые пакеты и информационные технологии МФ РЯ могут служить источниками лингвистических знаний, выступать в роли инструментальных средств создания банков знаний о языке общения интеллектуальных систем, включаться полностью или частично после конвертирования в их состав. Они используются при решении задач определения архитектуры банка знаний и наполнении его компонент. Основными компонентами банка знаний о языке общения человека с интеллектуальной системой являются: база лингвистических знаний (БЛЗ) и система управления ею.

В состав БЛЗ входят словарная компонента и тезаурус. Словарная компонента представляет собой систему словарей языковых единиц различных уровней: текстов и предложений, слов, словосочетаний, основ слов и аффиксов. Тезаурус содержит синтаксические и семантические отношения между языковыми единицами, включенными в состав словарной компоненты. Составными частями системы управления БЛЗ являются: лингвистический процессор, система создания и ведения знаний. Решение задачи наполнения банка лингвистическими знаниями осуществляется с помощью специальной системы создания БЛЗ, которая последовательно формирует словарь текстов, определяет множество языковых единиц, осуществляет их параметризацию и устанавливает связи между ними. Особую сложность представляют формализация синтаксических и семантических связей между языковыми единицами и процесс построения тезауруса, содержащего конкретные отношения (синонимии, род-вид, часть-целое и др.). Для установления тезаурусных отношений между языковыми единицами могут использоваться следующие методы: многомерные статистические группировки и ассоциативный эксперимент.

В рамках Машинного фонда русского языка проводился ассоциативный эксперимент, одним из результатов которого является разработка технологии его проведения и обработки полученных данных. Средством поддержки технологии является программно-источниковый пакет "Лексико-семантических ассоциаций носителей русского языка". Проводимый эксперимент имеет следующие характеристики: число этапов - 5; количество классов опрашиваемых респондентов - 28; контингент опрашиваемых - студенты старших курсов вузов по 28 специальностям; мощность множества стимулов на первом этапе - 1284 слова; способ опроса - письменный; количество сформированных анкет - 1500; количество слов-стимулов в анкете - 100; объем базы знаний - 120 тысяч пар "стимул-реакция". В программный корпус входит 33 программы общим объемом более 1.5 тысяч команд на языках БЕЙСИК и ФОРТРАН для ЭВМ СМ-4.

Для построения тезаурусов баз лингвистических знаний для взаимодействия человека с техническими системами на естественном языке предлагается использовать информационную технологию ассоциативного эксперимента. Она базируется на программных средствах указанного выше пакета и представляет собой последовательность следующих шагов:

  1. Анализ условий проведения эксперимента.
  2. Формирование массива стимулов этапа эксперимента.
  3. Генерация анкет опроса.
  4. Проведение анкетирования респондентов.
  5. Формирование базы знаний ассоциативного эксперимента.
  6. Выделение возможных связей между языковыми единицами.
  7. Построение тезауруса БЛЗ.
  8. Оценка полученного тезауруса и принятие решения о необходимости еще одного этапа (итерационного повторения шагов 2-7).

На первом шаге определяется множество пользователей, которые будут общаться с технической системой, проводится их классификация: выделяются классы пользователей и их информационные потребности. Например, при создании системы общения человека с ЭВМ в АСУ всех пользователей разделяют по уровням управления и получают некоторую иерархическую структуру, на каждом уровне которой объединяют пользователей в один или несколько классов.

На втором шаге, на основании информационных потребностей пользователей и характеристик технической системы, с которой общаются выделенные на первом шаге классы пользователей, формируется текстовое описание предметной области общения. Автоматизированная обработка его позволяет выделить множество языковых единиц, среди которых основными являются терминологические слова и словосочетания. С помощью специальной процедуры из всего множества выбираются стимулы для очередного этапа.

На третьем шаге на основе этого множества стимулов проводится генерации анкет опроса, в каждой из них содержится определенное количество случайным образом выбранных единиц. Количество анкет ограничено мощностью множеств пользователей выделенных классов. При необходимости отдельные пользователи могут опрашиваться несколько раз в течение заданного периода времени.

Четвертый шаг - это проведение опроса респондентов, который может быть организован в виде устного или письменного указания реакций на слова-стимулы, содержащиеся в анкете.

На пятом шаге в базу знаний вводятся полученные пары "стимул-реакция". Они сортируются и группируются по стимулам, характеристикам пользователей и уровням управления.

На шестом шаге осуществляется статистический анализ базы знаний эксперимента, в процессе которого определяются коэффициенты силы связи между парами языковых единиц на основе частот встречаемости пар "стимул-реакция", отдельных языковых единиц и других обобщенных характеристик базы знаний. Коэффициенты силы связи используются для построения ассоциативного тезауруса.

На седьмом и восьмом шагах совместно специалистом по знаниям и потенциальными пользователями проводится интерпретация выявленных связей. Строится тезаурус БЛЗ и оценивается его полнота. Предлагаемая технология ориентирована на первоначальное наполнение баз лингвистических знаний, адаптацию к конкретным группам пользователей и предметные области их деятельности.

 

 © НОК CLAIM, 2006-2012. Замечания, вопросы и сведения об ошибках просим сообщать в форуме или присылать администратору сайта.

OZON.ru Rambler's Top100