CLAIM – научно-образовательный кластер |
|||||||||||||||||||
|
|||||||||||||||||||
Г.А.ЧеркасоваФормирование баз лингвистических знаний с использованием технологии ассоциативного экспериментаПроизводственно-прикладная ориентированность Машинного фонда русского языка или прикладной подход к оценке его назначения в концентрированном виде представляет основные результаты лингвистических и филологических фундаментальных научных исследований, позволяет судить об их включенности в процесс информатизации общества, а через него и в технический прогресс. Интеллектуализация процессов переработки информации и управления техническими системами предполагает использование естественного языка в качестве средства взаимодействия человека с ними. В рамках данного подхода программно-источниковые пакеты и информационные технологии МФ РЯ могут служить источниками лингвистических знаний, выступать в роли инструментальных средств создания банков знаний о языке общения интеллектуальных систем, включаться полностью или частично после конвертирования в их состав. Они используются при решении задач определения архитектуры банка знаний и наполнении его компонент. Основными компонентами банка знаний о языке общения человека с интеллектуальной системой являются: база лингвистических знаний (БЛЗ) и система управления ею. В состав БЛЗ входят словарная компонента и тезаурус. Словарная компонента представляет собой систему словарей языковых единиц различных уровней: текстов и предложений, слов, словосочетаний, основ слов и аффиксов. Тезаурус содержит синтаксические и семантические отношения между языковыми единицами, включенными в состав словарной компоненты. Составными частями системы управления БЛЗ являются: лингвистический процессор, система создания и ведения знаний. Решение задачи наполнения банка лингвистическими знаниями осуществляется с помощью специальной системы создания БЛЗ, которая последовательно формирует словарь текстов, определяет множество языковых единиц, осуществляет их параметризацию и устанавливает связи между ними. Особую сложность представляют формализация синтаксических и семантических связей между языковыми единицами и процесс построения тезауруса, содержащего конкретные отношения (синонимии, род-вид, часть-целое и др.). Для установления тезаурусных отношений между языковыми единицами могут использоваться следующие методы: многомерные статистические группировки и ассоциативный эксперимент. В рамках Машинного фонда русского языка проводился ассоциативный эксперимент, одним из результатов которого является разработка технологии его проведения и обработки полученных данных. Средством поддержки технологии является программно-источниковый пакет "Лексико-семантических ассоциаций носителей русского языка". Проводимый эксперимент имеет следующие характеристики: число этапов - 5; количество классов опрашиваемых респондентов - 28; контингент опрашиваемых - студенты старших курсов вузов по 28 специальностям; мощность множества стимулов на первом этапе - 1284 слова; способ опроса - письменный; количество сформированных анкет - 1500; количество слов-стимулов в анкете - 100; объем базы знаний - 120 тысяч пар "стимул-реакция". В программный корпус входит 33 программы общим объемом более 1.5 тысяч команд на языках БЕЙСИК и ФОРТРАН для ЭВМ СМ-4. Для построения тезаурусов баз лингвистических знаний для взаимодействия человека с техническими системами на естественном языке предлагается использовать информационную технологию ассоциативного эксперимента. Она базируется на программных средствах указанного выше пакета и представляет собой последовательность следующих шагов:
На первом шаге определяется множество пользователей, которые будут общаться с технической системой, проводится их классификация: выделяются классы пользователей и их информационные потребности. Например, при создании системы общения человека с ЭВМ в АСУ всех пользователей разделяют по уровням управления и получают некоторую иерархическую структуру, на каждом уровне которой объединяют пользователей в один или несколько классов. На втором шаге, на основании информационных потребностей пользователей и характеристик технической системы, с которой общаются выделенные на первом шаге классы пользователей, формируется текстовое описание предметной области общения. Автоматизированная обработка его позволяет выделить множество языковых единиц, среди которых основными являются терминологические слова и словосочетания. С помощью специальной процедуры из всего множества выбираются стимулы для очередного этапа. На третьем шаге на основе этого множества стимулов проводится генерации анкет опроса, в каждой из них содержится определенное количество случайным образом выбранных единиц. Количество анкет ограничено мощностью множеств пользователей выделенных классов. При необходимости отдельные пользователи могут опрашиваться несколько раз в течение заданного периода времени. Четвертый шаг - это проведение опроса респондентов, который может быть организован в виде устного или письменного указания реакций на слова-стимулы, содержащиеся в анкете. На пятом шаге в базу знаний вводятся полученные пары "стимул-реакция". Они сортируются и группируются по стимулам, характеристикам пользователей и уровням управления. На шестом шаге осуществляется статистический анализ базы знаний эксперимента, в процессе которого определяются коэффициенты силы связи между парами языковых единиц на основе частот встречаемости пар "стимул-реакция", отдельных языковых единиц и других обобщенных характеристик базы знаний. Коэффициенты силы связи используются для построения ассоциативного тезауруса. На седьмом и восьмом шагах совместно специалистом по знаниям и потенциальными пользователями проводится интерпретация выявленных связей. Строится тезаурус БЛЗ и оценивается его полнота. Предлагаемая технология ориентирована на первоначальное наполнение баз лингвистических знаний, адаптацию к конкретным группам пользователей и предметные области их деятельности.
|
|||||||||||||||||||
© НОК CLAIM, 2006-2012. Замечания, вопросы и сведения об ошибках просим сообщать в форуме или присылать администратору сайта. |
|