CLAIM – научно-образовательный кластер |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Г.А.ЧеркасоваРусский ассоциативный тезаурус: компьютерная технология создания и издания
СодержаниеОсновные характеристики и этапы эксперимента ВведениеРусский ассоциативный тезаурус или Ассоциативный тезаурус современного русского языка (АТРЯ) является новым типом словаря, в котором представлен активный словарный фонд, используемый в определенном временном промежутке (10 лет). Он моделирует вербальную память и языковое сознание (языковую способность) "усредненного" носителя русского языка в форме ассоциативно-вербальной сети (АВС). Ассоциативный тезаурус современного русского языка существует только в компьютере на магнитных носителях. Его основное отличие от книжной формы в том, что он не является застывшим образованием, а постоянно изменяется и дополняется. При этом некоторые этапы его развития, которые могут представлять интерес для исследователей, зафиксированы в виде файлов на магнитных носителях и могут быть распечатаны или подготовлены для исследований. Перспектива словаря предполагает развитие вширь за счет добавления новых стимулов и вглубь за счет получения большего количества реакций на имеющиеся стимулы. Исходные данные АТРЯ получены в результате трехэтапного анкетного опроса испытуемых в ходе массового ассоциативного эксперимента, проводимого с 1988 по 1997 годы. Основные характеристики и этапы экспериментаАссоциативный эксперимент, законченный к настоящему моменту времени, охватывал только носителей русского языка и имел следующие параметры. Основные характеристики эксперимента, по которому созданы базы данных Ассоциативного тезауруса русского языка:
Этапы экcперимента. Проведены три этапа ассоциативного опроса, основные данные их приведены в следующей таблице:
Каждый этап эксперимента включал следующие шаги: Шаг 1. Исходный список слов-стимулов первого этапа был подготовлен составителями [подробно см. РАС-1: 8]. Стимулы для каждого последующего этапа выбирались из реакций предшествующего по упорядоченным частотным спискам. Всего использовано 6900 слов и словосочетаний, при этом список 1-го этапа включал 1275 слов 2 (в том числе около 900 лексем, некоторые из которых даны в разных формах и с предлогом "о"), 2-го — 2685 стимулов, 3-го — 2935. Шаг 2. Генерация требуемого количества (нескольких тысяч) анкет по 100 слов-стимулов в каждой, среди которых нет двух одинаковых и все стимулы из исходных списков встречаются заданное число раз (не менее 100), осуществлялась программно. Попутно в специальных файлах сохранялись последовательности номеров слов-стимулов для каждой сгенерированной и распечатанной анкеты, которые использовались в случае необходимости (например, порчи или потери) перепечатывать анкеты. Шаг 3. Опрос проводился в разных городах России среди студентов разных специальностей (всего 34). Испытуемые указывали пол, возраст и специальность и записывали только одну ассоциацию (реакцию) на каждый стимул, содержащийся в анкете. Составители просматривали заполненные анкеты и отбраковывали испорченные. Шаг 4. Данные из заполненных анкет вводились в ЭВМ с помощью текстовых редакторов, а затем программой соединялись с номерами стимулов, сохраненными на 2-м шаге. При формировании массива исходных файлов проверялась полнота и правильность ввода данных и выдавалась информация об ошибках. Полученные пары "номер стимула – реакция" для каждой анкеты распечатывались и визуально вычитывались, так как при введении рукописных данных-реакций делалось большое количество ошибок (в основном из-за неразборчивости почерков). По результатам трех этапов были сформированы исходные базы данных АТРЯ, содержащие более одного миллиона записей, которые представляют собой сгруппированное и упорядоченное множество пар "стимул-реакция" и соответствующие им параметры респондентов. Шаг 5. В результате сортировки и слияния данных исходных файлов создавались две базы: прямого и обратного ассоциативного словарей, чтобы обеспечить Русский ассоциативный тезаурус двумя входами: "от стимула" и "от реакции". Шаг 6. Одновременно создавалось несколько форм представления тезауруса: компьютерная база данных, электронная и полиграфическая версии издания Русского ассоциативного словаря (РАС). С помощью специальных программ формировался текст каждой из шести книг трех частей тезауруса в следующей последовательности.
Шаг 7. Анализ данных, накопленных в базах АТРЯ по первым двум этапам, проводился с целью подготовки упорядоченных частотных списков реакций для формирования слов-стимулов следующего этапа ассоциативного эксперимента. Обработка и хранение АТРЯ в машинном виде позволяют делать разнообразные социолингвистические "разрезы" ассоциативного массива (АВС), результаты анализа которых составят специальное приложение к шеститомному Русскому ассоциативному словарю. Выборки можно осуществлять как по группам стимулов (например, синонимичным рядам), так и по возрастным, половым, профессиональным, географическим признакам испытуемых, указанным в анкетах. После завершения обработки результатов всех (трех) этапов предполагается:
Все этапы ассоциативного эксперимента, включающие вышеперечисленные шаги, представляют собой специально разработанную компьютерную технологию. Компьютерная технология АТРЯКомпьютерная технология АТРЯ — это система, состоящая из программной оболочки и баз данных, приведена схематически на рисунке 1. Программная оболочка. Программные средства оболочки разработаны с использованием языка программирования Basic и средств СУБД. Они содержат программы для формирования баз данных, выборки и сортировки необходимой информации, получения статистических показателей, подготовки данных для последующей автоматизированной верстки книг РАС. Первоначально результаты ассоциативного эксперимента обрабатывались в среде ЭВМ СМ-4. Была разработана файловая система и пакет прикладных программ обслуживающих ее. Сформированы исходные файлы, которые объединяли анкеты по специальностям опрашиваемых. Комплекс программ позволял вводить анкеты, упорядочивать и добавлять их в словарь, организовывать накопленные данные в новые структуры и получать в виде распечаток любые фрагменты и результаты. Затем была создана версия компьютерного ассоциативного тезауруса на персональном компьютере класса IBM-PC. Разработана и реализована технология переноса данных из СМ ЭВМ в среду ПЭВМ. При обработке первого этапа ассоциативного опроса применялась СУБД FoxBase, в настоящее время для работы используется Paradox for Windows v.5.0 (rus). Средства СУБД использовались для ввода данных в исходные БД, их сортировки и объединения, осуществления простейших выборок из баз исходных данных для анализа и исследования АВС. Основными возможностями системы являются:
Программная оболочка создает, обрабатывает и использует все базы данных АТРЯ. Состав и структура баз данных. В состав компьютерного ассоциативного тезауруса русского языка входят основные и несколько вспомогательных баз данных. Основные базы данных:
Вспомогательные базы данных:
База стимулов упорядочена по номерам стимулов и содержит 6985 записей, из них 1275 стимулов первого этапа опроса, 2625 — второго и 2935 — третьего. Каждая запись включает стимул и его номер, используемый при генерации и обработке анкет и формировании других БД АТРЯ, а также статистические данные и имеет следующий вид: , +, , , 1242, ..., 1624
База исходных данных. Исходная (основная) база данных включает более миллиона записей, имеющих следующую структуру:
В исходной (основной) базе данных содержатся сведения, полученные в результате опроса испытуемых, т.е. информация из 11000 анкет, каждая из которых включает характеристики испытуемого: пол, возраст, специальность, город (место учебы) и 100 пар "стимул–реакция". Исходная база данных упорядочена по номерам анкет. Путем обработки исходной базы данных получаются две другие — база прямого и обратного словарей, в которой удаляются первые два поля и вычисляется частотная характеристика пар "стимул–реакция". База прямого словаря. База данных прямого ассоциативного словаря получена в результате обработки исходной базы путем сортировки по номерам стимулов и слияния одинаковых пар "стимул-реакция". Прямой словарь образуют множество стимулов, включенных в анкеты. Записи расположены в алфавитном порядке стимулов каждого этапа, что соответствует их номерам. Для каждого отдельного стимула они упорядочены по убыванию частоты реакций, а внутри одной частоты — по алфавиту реакции. Словарная статья содержит три поля. Фрагмент базы приведен ниже:
База обратного словаря. Каждая запись базы содержит: реакцию-словоформу или реакцию-словосочетание, номер стимула, который ее вызвал, и частоту пары "стимул-реакция" в исходной базе АТРЯ. База данных обратного ассоциативного словаря получена путем сортировки базы прямого словаря по следующим ключам:
Структура записи и объем баз данных прямого и обратного ассоциативного словаря совпадают. Кроме описанных БД программная оболочка позволяет также получать производные базы данных, включающие поля основных и вспомогательных БД. Литература
1Состав и структур баз данных АТРЯ описаны ниже. 2Часть исходного списка стимулов (около 800 слов) использовалось для генерации серии анкет с тем, чтобы получить на каждый стимул 500 реакций |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
© НОК CLAIM, 2006-2012. Замечания, вопросы и сведения об ошибках просим сообщать в форуме или присылать администратору сайта. |
|