CLAIM – научно-образовательный кластер |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Г.А. ЧеркасоваРусский ассоциативный тезаурус: компьютерная версия
СодержаниеФормирование «Русского ассоциативного тезауруса» Состав и структура базы данных «Русского ассоциативного тезауруса» «Русский ассоциативный словарь-тезаурус» на CD-ROM ВведениеНа конференции в октябре 2003 г. в Звенигороде был продемонстрирован «Русский ассоциативный словарь-тезаурус» (РАСт) — первая компьютерная версия «Русского ассоциативного тезауруса» (РАТ), предназначенная для записи на CD-ROM. Продемонстрированная разработка стала возможной, благодаря финансовой поддержке Совета по грантам Президента РФ, Российского фонда фундаментальных исследований, Российского гуманитарного научного фонда, средства которых (РГНФ № 96-04-16145; РФФИ № 93-06-11049, № 98-06-87047, № 96-15-98631, № 00-15-98826; НШ № 1976.2003.6) позволили: провести ассоциативный эксперимент, обработать собранные анкеты и создать базы данных; издать «Русский ассоциативный словарь» (РАС) в шести книгах; создать CD-ROM версию «Русского ассоциативного тезауруса». Следует отметить, что на содержание и форму представления «Русского ассоциативного словаря-тезауруса» оказали влияние работы по подготовке оригинал-макета двухтомного «Русского ассоциативного словаря» (выпущенного в 2002 г. издательствами АСТ и Астрель), а также проводимые в настоящее время в рамках гранта РФФИ № 01-06-80148 лемматизация словарного корпуса РАТ и исследование семантико-категориальных структур языкового сознания русских. Формирование «Русского ассоциативного тезауруса»Данные для «Русского ассоциативного тезауруса» получены в результате трехэтапного анкетного опроса испытуемых (для которых родной язык русский) в ходе массового ассоциативного эксперимента, проведенного в период с 1988 по 1997 годы. РАТ является новым типом словаря, в котором представлен активный словарный фонд современного русского языка, используемый в определенном временном промежутке. Он моделирует вербальную память и языковое сознание «усредненного» носителя русского языка. На каждом этапе ассоциативного эксперимента были составлены списки стимулов, сгенерированы и распечатаны анкеты, проведен опрос и материалы введены в компьютер с использованием текстовых редакторов. После выполнения специальной программы формального контроля введенных анкет, все пары «стимул-реакция» (S–R) занесены в базы данных исследования. Подробно технология проведения эксперимента и его параметры, а также программные компоненты описаны в работах [РАС; РАС-2002; Черкасова 1996, 1998]. На рис. 1 приведена диаграмма, показывающая соотношение объемов стимулов на каждом этапе в процентах к их общему количеству, а также даны некоторые параметры каждого этапа. Так как некоторые стимулы повторялись на разных этапах опроса, на диаграмме показаны размеры этих повторов (пересечений списков стимулов на разных этапах эксперимента).
В результате объединения материалов трех этапов была подготовлена сводная компьютерная версия ассоциативного тезауруса, которая и будет рассматриваться в этой статье. Приведем итоговые характеристики ассоциативного эксперимента и созданной базы данных (БД РАТ):
Первая строка в этом списке фиксирует объем прямого словаря (от стимула к реакции), а предпоследняя — количество словарных статей в обратном словаре (от реакции к стимулу). Последняя строка — это размерность алфавитно-частотного и частотно-алфавитного лексиконов, полученных в результате этапа автоматической лемматизации данных РАТ и ее ручной коррекции. Состав и структура базы данных «Русского ассоциативного тезауруса»База данных «Русского ассоциативного тезауруса» включает следующие таблицы:
Рисунок 2. Фрагмент таблицы стимулов.
Рисунок 3. Фрагмент основной таблицы для стимула двоюродный.
Рисунок 4. Фрагмент производной базы для стимула квашенная. После сортировки 5-ой таблицы по общему номеру стимула, по убыванию числа ответивших, реакциям по алфавиту, получается таблица «Прямого ассоциативного словаря», которая имеет вид, представленный в таблице 4. Сортировка этой же 5-й таблицы по реакциям, по убыванию числа ответивших и номеру стимула формирует «Обратный ассоциативный словарь», фрагмент которой для реакции Лермонтов приведен на рис.5).
Рисунок 5. Фрагмент базы обратного словаря. Если производную базу отсортировать по убыванию значения поля <кол-во ответивших>, то получается список самых частотных пар «стимул-реакция», фрагмент которого приведен на рис.6.
Рисунок 6. Фрагмент самых частотных пар «стимул-реакция». Вычисления, проведенные по таблице «Обратного ассоциативного словаря», позволяют увидеть как самые частотные реакции, так и те, которые вызваны наибольшим количеством стимулов. Эти данные позволяет исследовать ядро языкового сознания «усредненного» носителя русского языка. В таблице на рис.7 приведены самые частотные реакции-леммы (слова-реакции, приведенные к основной форме в результате лемматизации корпуса РАТ), при этом они упорядочены по убыванию количества стимулов, их вызвавших.
Рисунок 7. Исследование ядра языкового сознания. Программная поддержкаДля проведения и обработки материалов ассоциативного эксперимента были разработаны специальные программные средства с использованием языков программирования и возможностей СУБД Paradox for Windows v.5.0 (rus). Они включают программы для формирования баз данных, выборки и сортировки необходимой информации, получения статистических показателей, подготовки данных для последующей автоматизированной верстки книг РАС и создания электронных изданий на CD-ROM. Средства СУБД применялись для сортировки и объединения записей при создании производных баз данных, а также для получения выборок данных из БД РАТ при проведении различных научных исследований. Основными возможностями системы являются:
Например, проводя исследование встречаемости предлогов, частиц, союзов и др. в корпусе Ассоциативного тезауруса, были получены данные, которые сведены в таблицу на Рис. 8 .
Рисунок 8. Встречаемость предлогов по базе РАТ. Так как ассоциативный тезаурус существует только в компьютерной форме, и он постоянно изменяется и дополняется, то по его материалам были подготовлены и выпущены два разных издания «Русского ассоциативного словаря» (1994–1998, 2002). Кроме этого в 2002 году Андреем Филипповичем в рамках ведущей научной школы № 00-15-98826 создана первая электронная версия «Русского ассоциативного словаря-тезауруса» на CD-ROM, позволяющая получать как словарные статьи прямого и обратного ассоциативных словарей по всему корпусу, так и по заданным значениям отдельных параметров респондентов (например, указав пол, можно получить гендерный ассоциативный словарь). «Русский ассоциативный словарь-тезаурус» на CD-ROMРассмотрим как работает компьютерная версия РАСт и покажем на примерах ее возможности. Как и в книжном издании РАСт имеет два входа: прямой от стимула S R и соответственно обратный — от реакции R S. После запуска компьютерной версии РАСт появится следующий экран, представленный на Рис. 9. где:поле, в котором выбирается или задается стимул; указатель, показывающий выборку испытуемых и принимающий значения: МЖ (все), М (мужчины), Ж (женщины); поле, в котором задается номер специальности; по умолчанию задано All, т.е. для всех специальностей; поле для задания возраста; по умолчанию задано All, т.е. для всех возрастов; кнопка «R-S» включаетя экран, отображающий «Обратный ассоциативный словарь»; переключатель «G», задающий гендерное представление словаря; кнопка «Отчет» — выводит результаты на печать; столбец «Реакции» показывает реакции на выбранный стимул; столбец «Частота» содержит частоты соответствующих реакций. Внизу таблицы в четырех клеточках приводятся следующие количественные характеристики (аналогично книжному изданию): 10 – общее число реакций на данный стимул; 11 – число разных реакций, т.е. количество строк в таблице; 12 – число отказов испытуемых от ответа на выбранный стимул; 13 – количество реакций, имеющих единичную частоту. При исследовании гендерного представления данных ассоциативного тезауруса (нажав кнопку ) на экране поменяется часть полей, и он примет следующий вид: где: 14 поле, включающее задание интервала частот встречаемости реакций (при нажатии левой кнопки мыши в поле появляется знак «галка»); в этом режиме необходимо задать частоты «от» и «до» соответственно в полях 15 и 16; 17 – переключатель, задающий гендерное представление словаря, изменяет свой цвет; 18 – включение режима «нормирования»; 19 и 20 задают соответственно столбцы частот отдельно для мужчин и женщин. В нижней части экрана в каждой из четырех ячеек, содержащих количественные характеристики, появляется уже по три числа (через разделитель «/»): первое — количество для всех, второе — количество для мужчин, третье — количество для женщин. Второй вход от реакции может быть получен нажатием кнопки на экране, представленном на Рис. 9. где: 21 – поле, в котором выбирается или задается реакция; 22 – в данном поле задается интервал, который включает первую букву реакции, так как количество разных реакций более 100 тысяч, для сокращения времени поиска весь массив разных реакций разбит на четыре части (на Рис.11, отображено данное поле раскрытым, т.е. после нажатия на «стрелку»); 23 – переключатель, задающий гендерное представление обратного словаря; 24 – кнопка «Отчет» — выводит результаты на печать; 25 – столбец «Стимул» показывает стимулы, вызвавшие заданную реакцию; 26 – столбец «Частота» содержит частоты стимулов; 27 – поле, в котором указано общее количество респондентов, ответивших данной реакцией; 28 – поле содержит число вызвавших указанную реакцию стимулов; 29 – поле указывает число единичных пар «стимул-реакция». Задать стимулы в поле (1) и реакции в поле (21) можно двумя способами, либо при раскрытии соответствующих полей, либо ЛитератураТехнология и результаты обработкиТехнология ассоциативного эксперимента всем хорошо известна и на первый взгляд проста и понятна. Это:
Однако, при сопоставлении результатов (ассоциативных норм) для достоверности необходимо, чтобы выборки респондентов по каждому стимулу были одинаковыми как по количеству опрошенных (например, 100 или 500 чел.), так и по составу отвечающих. То есть, среди анкетируемых по каждому стимулу должно быть равное количество, например, мужчин и женщин; или разные возрастные группы, уровень образования, профессиональной ориентации, семейное положение и другие возможные характеристики респондентов также одинаково должны быть представлены в ответах испытуемых по каждому стимулу. Поскольку все перечисленные параметры контингента испытуемых накладывают отпечаток на его сознание, то рассматривать всех как просто «испытуемые» нельзя считать правомерным или даже правильным. Если число стимулов невелико (например, при проведении славянского ассоциативного эксперимента авторы выбрали 112 стимулов), то все они размещаются в каждой анкете. Тогда можно проводить сопоставительные исследования внутри каждого отдельного языка, а при одинаковом количестве опрошенных и между всеми славянскими языками. Для больших экспериментов достичь равновероятной представленности всех категорий испытуемых по каждому отдельному стимулу невозможно, так как каждая анкета содержит свой набор стимулов и нет двух одинаковых. Поэтому необходимо уже на этапе опроса необходимо зафиксировать те параметры, по значениям которых будет проводить сопоставительные исследования. Например, при создании РАС, где использовалось 6624 разных стимула и было опрошено более 10 тыс. испытуемых, получены 1 037 522 пары «стимул–реакция», не удалось добиться равномерности выборок даже по показателю «пол», поэтому при рассмотрении гендерного разреза словаря, использования абсолютных частот встречаемости тех или иных ответов-реакций оказывается часто не правомерным или даже не правильным (см. об этом ниже). Для более одного миллиона словоупотреблений проводилось сравнение частотного словника ассоциативного словаря с частотными словарями русского языка, построенными по корпусам текстов. Выявлено сходство употребительности большинства предлогов, например, предлоги «в» и «на» имеют во всех случаях самую большую частоту (см. таблицу ниже).
Самое частотное понятие ассоциативного тезауруса «ЧЕЛОВЕК» включающее парадигмы форм человек и люди, зафиксированное в 17553 реакциях [что составляет 1,7% от общего числа ответов] на 2326 стимула [35%], содержится в 3808 разных парах «стимул-реакция» (1415 из которых словосочетания), при этом получено 765 разных реакции (747 словосоч.). Статистика по разным формам следующая в парах стимул-реакция: человек мо; человек (2103); человека (651); человеке (43); человеком (97); человеку (101); людей (335); люди (305); людьми (50); людям (99); людях (24). Есть также производные от данного понятия – человек-амфибия (3) жо; человек-бог (1) мо; человек-гора (1) ж; человек-индивид (1) мо; человек-лентяй (1) мо; человек-невидимка (1) мо-жо; человек-тормоз (1) м; человек-фантазер (1) мо; человечек (20) мо; человечишка (2) жо; человечище (1) со. В результате этапа лемматизации и ее ручной коррекции подготовлены данные для построения алфавитно-частотного и полного частотно-алфавитного лексикона среднего носителя современного русского языка. Частотно-алфавитный словник сделан в трех разрезах, фрагменты которых даны в приложении. Компьютерная технология АТРЯКомпьютерная технология РАТ – это система, состоящая из программной оболочки и баз данных, приведена схематически. Программная оболочка. Программные средства оболочки разработаны с использованием языка программирования Basic и средств СУБД. Они содержат программы для формирования баз данных, выборки и сортировки необходимой информации, получения статистических показателей, подготовки данных для последующей автоматизированной верстки книг РАС. В настоящее время для работы используется Paradox for Windows v.5.0 (rus). Средства СУБД использовались для ввода данных в исходные БД, их сортировки и объединения, осуществления простейших выборок из баз исходных данных для анализа и исследования АВС. Основными возможностями системы являются:
Программная оболочка создает, обрабатывает и использует все базы данных АТРЯ.
1 Поскольку на каждом из трех этапов ассоциативного опроса использовался свой упорядоченный, т.е. отсортированный по алфавиту, список стимулов, то в анкетах номера изменялись для первого этапа от 1 до 1277, второго — от 1285 до 3965, а третьего от 3966 до 6895, поэтому в сводной таблице каждый стимул, на самом деле, имеет два номера: общий алфавитный и номер из анкет для опроса. В базе данных РАТ содержится не сам стимул, а его номер, что ускоряет компьютерную обработку материалов ассоциативного эксперимента. |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
© НОК CLAIM, 2006-2012. Замечания, вопросы и сведения об ошибках просим сообщать в форуме или присылать администратору сайта. |
|