CLAIM – научно-образовательный кластер

Г.А.Черкасова

Русский ассоциативный тезаурус: компьютерная технология создания и издания

  Книга РАС это не "иллюстративный материал", собранный составителями и представленный в такой форме, а алгоритмически сконструированный лингвистический объект, являющийся одним из возможных способов представления языка.
  (Русский ассоциативный словарь. Предисловие)

Содержание

Введение

Основные характеристики и этапы эксперимента

Компьютерная технология АТРЯ

Литература

Введение

Русский ассоциативный тезаурус или Ассоциативный тезаурус современного русского языка (АТРЯ) является новым типом словаря, в котором представлен активный словарный фонд, используемый в определенном временном промежутке (10 лет). Он моделирует вербальную память и языковое сознание (языковую способность) "усредненного" носителя русского языка в форме ассоциативно-вербальной сети (АВС).

Ассоциативный тезаурус современного русского языка существует только в компьютере на магнитных носителях. Его основное отличие от книжной формы в том, что он не является застывшим образованием, а постоянно изменяется и дополняется. При этом некоторые этапы его развития, которые могут представлять интерес для исследователей, зафиксированы в виде файлов на магнитных носителях и могут быть распечатаны или подготовлены для исследований.

Перспектива словаря предполагает развитие вширь за счет добавления новых стимулов и вглубь за счет получения большего количества реакций на имеющиеся стимулы.

Исходные данные АТРЯ получены в результате трехэтапного анкетного опроса испытуемых в ходе массового ассоциативного эксперимента, проводимого с 1988 по 1997 годы.

Основные характеристики и этапы эксперимента

Ассоциативный эксперимент, законченный к настоящему моменту времени, охватывал только носителей русского языка и имел следующие параметры.

Основные характеристики эксперимента, по которому созданы базы данных Ассоциативного тезауруса русского языка:

  • 6624 слов-стимулов, т.е. статей прямого словаря;
  • около 11 тысяч исходных анкет;
  • более 1 млн. словоупотреблений в базе, т.е. слов, полученных в реакциях испытуемых;
  • более 30 тысяч разных понятий, полученных в АТРЯ, т.е. лемматизированных (приведенных к основной форме) реакций и стимулов.

Этапы экcперимента. Проведены три этапа ассоциативного опроса, основные данные их приведены в следующей таблице:

№ этапа

 

Количество стимулов

Количество предъявлений стимулов

Количество анкет

напечатанных

введенных в БД

I
+дополн

1275
~800 

100
+400 

1500
3500

~1300
~3200

II

2685

100

3000

~2800

III

2935

100

3500

~3150

Каждый этап эксперимента включал следующие шаги:
(1) — формирование списка стимулов;
(2) — генерация и печать анкет для опроса;
(3) — проведение опроса и отбраковка испорченных анкет;
(4) — ввод реакций, создание массива исходных файлов и баз данных 1;
(5) — обработка БД, получение прямого и обратного словарей;
(6) — порождение оригинал-макета книг РАС;
(7) — анализ данных АТРЯ: статистическая обработка, формирование частотных списков реакций, построение проекций и выборок из БД, лемматизация и др.

Шаг 1. Исходный список слов-стимулов первого этапа был подготовлен составителями [подробно см. РАС-1: 8]. Стимулы для каждого последующего этапа выбирались из реакций предшествующего по упорядоченным частотным спискам. Всего использовано 6900 слов и словосочетаний, при этом список 1-го этапа включал 1275 слов 2 (в том числе около 900 лексем, некоторые из которых даны в разных формах и с предлогом "о"), 2-го — 2685 стимулов, 3-го — 2935.

Шаг 2. Генерация требуемого количества (нескольких тысяч) анкет по 100 слов-стимулов в каждой, среди которых нет двух одинаковых и все стимулы из исходных списков встречаются заданное число раз (не менее 100), осуществлялась программно. Попутно в специальных файлах сохранялись последовательности номеров слов-стимулов для каждой сгенерированной и распечатанной анкеты, которые использовались в случае необходимости (например, порчи или потери) перепечатывать анкеты.

Шаг 3. Опрос проводился в разных городах России среди студентов разных специальностей (всего 34). Испытуемые указывали пол, возраст и специальность и записывали только одну ассоциацию (реакцию) на каждый стимул, содержащийся в анкете. Составители просматривали заполненные анкеты и отбраковывали испорченные.

Шаг 4. Данные из заполненных анкет вводились в ЭВМ с помощью текстовых редакторов, а затем программой соединялись с номерами стимулов, сохраненными на 2-м шаге. При формировании массива исходных файлов проверялась полнота и правильность ввода данных и выдавалась информация об ошибках. Полученные пары "номер стимула – реакция" для каждой анкеты распечатывались и визуально вычитывались, так как при введении рукописных данных-реакций делалось большое количество ошибок (в основном из-за неразборчивости почерков). По результатам трех этапов были сформированы исходные базы данных АТРЯ, содержащие более одного миллиона записей, которые представляют собой сгруппированное и упорядоченное множество пар "стимул-реакция" и соответствующие им параметры респондентов.

Шаг 5. В результате сортировки и слияния данных исходных файлов создавались две базы: прямого и обратного ассоциативного словарей, чтобы обеспечить Русский ассоциативный тезаурус двумя входами: "от стимула" и "от реакции".

Шаг 6. Одновременно создавалось несколько форм представления тезауруса: компьютерная база данных, электронная и полиграфическая версии издания Русского ассоциативного словаря (РАС). С помощью специальных программ формировался текст каждой из шести книг трех частей тезауруса в следующей последовательности.

  1. Базы данных прямого и обратного словарей РАС конвертировались в текстовые файлы MS DOS.
  2. Формировались словарные статьи прямого и обратного словарей РАС, структуры которых идентичны и состоят из заголовочного слова (СТИМУЛА для прямого РАC или РЕАКЦИИ для обратного) и следующего за ним списка слов-ассоциатов на данный стимул (для прямого) или списка стимулов, породивших эту реакцию (для обратного), в порядке убывания частоты пары "стимул-реакция". Частота указывается или вслед за отдельным элементом списка, если он один имеет такую частоту встречаемости в ответах испытуемых, или в конце группы слов-ассоциатов или стимулов (для прямого и обратного соответственно), имеющих одинаковую частоту встречаемости, причем внутри такой группы слова расположены в алфавитном порядке. Завершается словарная статья количественными характеристиками: первая цифра — это общее число пар "стимул–реакция" в исходной базе; вторая — число разных, отличающихся одна от другой пар, третья — число отказов испытуемых отвечать на данный стимул (есть только в прямом словаре) и четвертая — число единичных пар в данной статье, т.е. с частотой 1.
  3. Вносились шрифтовые оформления элементов АВС (пересечений исходных слов-стимулов и реакций).
  4. К полученным данным программно добавлялась информация, необходимая для получения окончательного оригинал-макета в среде издательской системы Ventura.

Шаг 7. Анализ данных, накопленных в базах АТРЯ по первым двум этапам, проводился с целью подготовки упорядоченных частотных списков реакций для формирования слов-стимулов следующего этапа ассоциативного эксперимента.

Обработка и хранение АТРЯ в машинном виде позволяют делать разнообразные социолингвистические "разрезы" ассоциативного массива (АВС), результаты анализа которых составят специальное приложение к шеститомному Русскому ассоциативному словарю. Выборки можно осуществлять как по группам стимулов (например, синонимичным рядам), так и по возрастным, половым, профессиональным, географическим признакам испытуемых, указанным в анкетах.

После завершения обработки результатов всех (трех) этапов предполагается:

  1. провести создание лемматизированного сводного словника (50-60 тыс. единиц) по базе АТРЯ;
  2. сформировать распределенную базу данных АТРЯ, объединяющую все исходные данные;
  3. подготовить базы для записи на CD ROM;
  4. разработать информационно-поисковую систему, позволяющую проводить комплексный (языковой, социально-психологический, этнокультурный, психолингвистический) анализ АВС.

Все этапы ассоциативного эксперимента, включающие вышеперечисленные шаги, представляют собой специально разработанную компьютерную технологию.

Компьютерная технология АТРЯ

Компьютерная технология АТРЯ — это система, состоящая из программной оболочки и баз данных, приведена схематически на рисунке 1.

Программная оболочка. Программные средства оболочки разработаны с использованием языка программирования Basic и средств СУБД. Они содержат программы для формирования баз данных, выборки и сортировки необходимой информации, получения статистических показателей, подготовки данных для последующей автоматизированной верстки книг РАС.

Первоначально результаты ассоциативного эксперимента обрабатывались в среде ЭВМ СМ-4. Была разработана файловая система и пакет прикладных программ обслуживающих ее. Сформированы исходные файлы, которые объединяли анкеты по специальностям опрашиваемых. Комплекс программ позволял вводить анкеты, упорядочивать и добавлять их в словарь, организовывать накопленные данные в новые структуры и получать в виде распечаток любые фрагменты и результаты.

Затем была создана версия компьютерного ассоциативного тезауруса на персональном компьютере класса IBM-PC. Разработана и реализована технология переноса данных из СМ ЭВМ в среду ПЭВМ.

При обработке первого этапа ассоциативного опроса применялась СУБД FoxBase, в настоящее время для работы используется Paradox for Windows v.5.0 (rus). Средства СУБД использовались для ввода данных в исходные БД, их сортировки и объединения, осуществления простейших выборок из баз исходных данных для анализа и исследования АВС.

Основными возможностями системы являются:

  • диалоговый режим взаимодействия с пользователями в виде иерархических "меню";
  • поддержка запросов пользователей к базам прямого и обратного ассоциативного словарей;
  • получение статистической информации о словах-стимулах и реакциях;
  • получение проекций баз прямого и обратного ассоциативного словарей;
  • введение лингвистических параметров, характеризующих стимулы и реакции в базы данных;
  • получение подмножеств баз прямого и обратного ассоциативного словаря с учетом морфемной структуры слов-стимулов и реакций, введенных лингвистических параметров и сведений из исходной (вспомогательной) базы данных.

Программная оболочка создает, обрабатывает и использует все базы данных АТРЯ.

Состав и структура баз данных. В состав компьютерного ассоциативного тезауруса русского языка входят основные и несколько вспомогательных баз данных.

Основные базы данных:

  • база стимулов ассоциативного эксперимента;
  • исходная (основная) база данных;
  • база данных прямого ассоциативного словаря;
  • база данных обратного ассоциативного словаря.

Вспомогательные базы данных:

  • база анкетных данных, которая содержит следующие сведения о респонденте ассоциативного эксперимента: пол, возраст, специальность;
  • база специальностей, включающая список более тридцати специальностей;
  • база населенных пунктов, в которых проведен ассоциативный эксперимент.

База стимулов упорядочена по номерам стимулов и содержит 6985 записей, из них 1275 стимулов первого этапа опроса, 2625 — второго и 2935 — третьего. Каждая запись включает стимул и его номер, используемый при генерации и обработке анкет и формировании других БД АТРЯ, а также статистические данные и имеет следующий вид: , +, , , 1242, ..., 1624

№ стимула

0003

...

1242

...

1624

Стимул

активный

 

человек

 

время

Ко-
ли-
чес-
тво-

предъявлений

541

 

542

 

103

разных реакций

174

 

246

 

57

единичных реакций

124

 

177

 

2

отказов в ответах

6

 

6

 

43

Сколько раз встречался как реакция

80

 

9822

 

1100

Сколько других стимулов дали как реакцию

21

 

789

 

274

База исходных данных. Исходная (основная) база данных включает более миллиона записей, имеющих следующую структуру:

№ анкеты

Характеристики испытуемого

№стимула

Реакция

спецальность

пол

возраст

В исходной (основной) базе данных содержатся сведения, полученные в результате опроса испытуемых, т.е. информация из 11000 анкет, каждая из которых включает характеристики испытуемого: пол, возраст, специальность, город (место учебы) и 100 пар "стимул–реакция". Исходная база данных упорядочена по номерам анкет. Путем обработки исходной базы данных получаются две другие — база прямого и обратного словарей, в которой удаляются первые два поля и вычисляется частотная характеристика пар "стимул–реакция".

База прямого словаря. База данных прямого ассоциативного словаря получена в результате обработки исходной базы путем сортировки по номерам стимулов и слияния одинаковых пар "стимул-реакция". Прямой словарь образуют множество стимулов, включенных в анкеты. Записи расположены в алфавитном порядке стимулов каждого этапа, что соответствует их номерам. Для каждого отдельного стимула они упорядочены по убыванию частоты реакций, а внутри одной частоты — по алфавиту реакции.

Словарная статья содержит три поля. Фрагмент базы приведен ниже:

Номер стимула

Реакция испытуемого

Частота реакции

0003

комсомолец

47

0003

человек

46

0003

пассивный

45

. . .

 

 

0003

юноша

1

0004

договор

17

База обратного словаря. Каждая запись базы содержит: реакцию-словоформу или реакцию-словосочетание, номер стимула, который ее вызвал, и частоту пары "стимул-реакция" в исходной базе АТРЯ.

База данных обратного ассоциативного словаря получена путем сортировки базы прямого словаря по следующим ключам:

  • реакция (по алфавиту);
  • частота реакции;
  • стимул (по алфавиту).

Структура записи и объем баз данных прямого и обратного ассоциативного словаря совпадают.

Кроме описанных БД программная оболочка позволяет также получать производные базы данных, включающие поля основных и вспомогательных БД.

Литература

РАС-1: 8

РАС — Караулов Ю.Н., Сорокин Ю.А., Тарасов Е.Ф., Уфимцева Н.В., Черкасова Г.А. Русский ассоциативный словарь. Кн. I, 3, 5. Прямой словарь: от стимула к реакции. Книга 2, 4, 6. Обратный словарь: от реакции к стимулу. Ассоциативный тезаурус современного русского языка. М., 1994, 1996, 1998.

Черкасова, 1986.

Черкасова Г.А. Автоматизация построения словарей информационных систем. Тез.докл. на конф. 1986.

Филиппович , Черкасова, Родионов., 1990

Филиппович Ю.Н., Черкасова Г.А., Родионов Е.В. Организация взаимодействия человека с техническими средствами АСУ. В 7 кн. Кн. 2. Языковые средства диалога человека с ЭВМ / Под ред. В.Н. Четверикова. М., 1990.


1Состав и структур баз данных АТРЯ описаны ниже.

2Часть исходного списка стимулов (около 800 слов) использовалось для генерации серии анкет с тем, чтобы получить на каждый стимул 500 реакций

 © НОК CLAIM, 2006-2012. Замечания, вопросы и сведения об ошибках просим сообщать в форуме или присылать администратору сайта.

OZON.ru Rambler's Top100