CLAIM – научно-образовательный кластер |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Г.А.ЧеркасоваКвантитативные исследования ассоциативных словарей1СодержаниеИсследование динамики роста словников
Частота реакций в ассоциативном поле конкретного стимула при росте объема выборки ВведениеОдной из эффективных форм представления результатов ассоциативных вербальных экспериментов в современной психолингвистике являются ассоциативные словари-тезаурусы. Традиционно в ассоциативных словарях полно фиксируются данные о вербальной номенклатуре эксперимента в виде двух основных отношений: “прямого” — стимул-реакция (S–R) и “обратного” — реакция-стимул (R–S). Количественные характеристики в них представлены частично — это абсолютные значения индивидуальных частот реакций и их количество для конкретных стимулов. Применение только этих данных существенно ограничивает продуктивность исследований и обоснованность выводов. Для более полного и корректного использования результатов экспериментов необходимы дополни-тельные исследования материалов ассоциативных словарей, в числе которых так называемые квантитативные исследования. Традиционно предметом квантитативных исследований в лингвистике является речь в различных формах своего существования. Наибольшее распространение получил анализ текстов различных языков, стилей и авторов, целями которого являются:
В статье впервые представлены некоторые результаты квантитативных (статистических) исследований данных компьютерных версий Русского [РАС] и Славянского [САС] ассоциативных словарей. Целью исследований было построение эмпирических частотных распределений и нахождение значений основных статистик для множеств стимулов, реакций, пар “стимул-реакция” и анкет. РАС сформирован по результатам трех этапного ассоциативного эксперимента. При его проведении авторы, исходя из имеющихся организационных и финансовых возможностей, стремились получить на каждый стимул не менее 100 реакций испытуемых. Анкеты генерировались программно так, чтобы: во-первых, в каждой из них было сто стимулов, случайно выбранных из заданного списка; во-вторых, во всем множестве полученных анкет каждый стимул встречался не менее ста раз [Черкасова 1994]. Вместе с тем на первом этапе эксперимента была предпринята попытка значительно увеличить количество реакций на предъявляемые стимулы. Для этого по 760 стимулам был проведен дополнительный опрос, который увеличил количество реакций на них со 100 до 500. В итоге результаты первого этапа русского ассоциативного эксперимента можно разделить на следующие части:
В таблице 1 приведены сводные количественные характеристики русского ассоциативного словаря (см. также работы автора, в том числе [Черкасова 2004б]).
Таблица 1. Сводные статистические характеристики РАС В отличие от русского славянский ассоциативный эксперимент проводился на списке стимулов из 112 слов, которые присутствовали в каждой анкете, а количество полученных реакций по каждому стимулу не менее 500. В настоящее время обработаны анкеты и созданы базы данных (БД) для болгарского, белорусского, русского и украинского языков. Данные САС приведены в таблице 2.
Таблица 2. Сводные статистические характеристики САС В качестве материалов для исследований, представленных в настоящей статье, использованы данные САС по четырем языкам и данные только первого этапа РАС, при этом для сопоставления словарей было использовано подмножество 756 стимулов (1-д) и соответствующие им множества реакций. Такой выбор материалов позволил обеспечить корректное сопоставление словарей, которые были получены в результате экспериментов, различных по количеству участвовавших в них испытуемых. Проведенные исследования условно можно разделить на две группы:
Исследование динамики роста словниковАнализ динамики роста словников ассоциативных словарей проводился по следующим направлениям: построение функций наполнения словников, параметризация и прогноз роста объема словников, сопоставительные исследования разных экспериментов. Уточним используемое в исследовании понимание “словников” в ассоциативных словарях. Словник стимулов (Ssl) – это множество всех стимулов (слов и словосочетаний), используемых при опросе и включенных в анкеты. Словником реакций (Rsl) будем называть множество разных ответов, т.е. реакций, полученных в ассоциативном эксперименте. В таблицах 1 и 2 в п. 5 приведены размерности данных словников. Ассоциативным словником (Asl) будем называть объединение словника стимулов и словника реакций. Так как стимулы ассоциативных экспериментов, как показано в работе [Черкасова 2004а] практически все встречаются в реакциях испытуемых, то далее будем исследовать только словники реакций. Посмотрим, как изменяется количество разных ответов испытуемых в процессе ассоциативного эксперимента, сравним данные разных опросов и проанализируем, что дает одна анкета, один стимул, массив всех анкет и всех стимулов. 1. Количество разных ответов-реакций в одной анкетеВ каждой анкете РАС содержится разный набор стимулов, и нет двух одинаковых. После обработки массива 4522 анкет первого этапа получено эмпирическое распределение количества разных ответов в одной анкете, полигон которого представлен на рисунке 1. Кроме полигона на рисунке приведена сглаживающая кривая (пунктирная линия). Значения основных статистик полученного распределения следующие: минимальное значение количества разных реакций – 65; максимальное значение – 100; среднее значение – ~94 (точнее 93.81); мода – 97; среднее отклонение – 24,42; асимметрия – -1,54; эксцесс – 3,60 . Суммарное количество разных ответов по всем анкетам составляет 424 194. Количество анкет, в которых разных ответов минимальное (менее 79) всего – 77, что составляет 1,7 % от общего количества опрошенных. А максимальное число разных ответов 100, т.е. все реакции разные, содержится в 212 анкетах или 4,69 %. Большинство анкет включают от 94 до 98 разных ответов (см. данные Рис. 1).
Рисунок 1. Распределения количества разных реакций в одной анкете для каждого из четырех языков САС в виде полигонов представлены на рисунке 2. Там же приведена и сглаживающая кривая (пунктирная линия). Сопоставление показывает, что характер распределений (сглаживающих кривых) и количественные показатели для всех четырех славянских языков близки друг к другу, и это, возможно, объясняется тем, что список стимулов во всех экспериментах был один и тот же, а в каждой анкете содержались все стимулы. Анализируя графики, можно отметить, что наибольшее число анкет содержит 95–106 разных реакций. Во всех языках в конечных координатах (точки 112-113) кривые стремятся к нулю. Рассматривая русскую часть САС, мы имеем следующие результаты: 594 анкеты дали в сумме 556147 разных ответов. Среднее количество разных реакций в одной анкете получилось ~98, что составляет 87.4% от максимально возможного количества ответов 112. Сопоставляя данные для РАС и САС можно отметить, что распределения количества разных ответов в обоих случаях являются асимметричными и унимодальными. Среднее количество разных реакций для САС — 87.4% от максимально возможного значения, в то время как для РАС этот же процент выше и составил 93.81%, что можно объяснить различием списков слов-стимулов в каждой анкете. Графики САС в отличие от данных РАС заканчиваются на нулевой отметке, т.е. отсутствуют анкеты, имеющие на все стимулы разные реакции. 2. Динамика роста словника реакций в зависимости от числа испытуемыхИсследование проводилось по следующему алгоритму:
Для славянского эксперимента задавался шаг в 10 анкет. Результаты расчетов по п.6 алгоритма представлены на рисунках 3–5. Графики на рис. 3 показывают, что количество разных реакций для всех четырех славянских языков возрастает по мере увеличения количества опрошенных. При количестве респондентов 500 объемы словников реакций достигают размеров от 9 до 11 тысяч. И хотя кривые имеют тенденцию к уменьшению угла наклона, как показывают графики на рис. 4, при выборках более ста респондентов количество реакций, добавляемых на каждом шаге, колеблется в пределах 100–300 слов, т.е. каждая анкета добавляет от 10 до 30 новых реакций на 112 предъявленных стимулов. На рисунке 5 “относительный прирост числа реакций (%)” представлено как изменяется процент количества новых реакций на очередном шаге к количеству реакций, полученных на всех предыдущих шагах. Графики сначала резко падают от 100 % до 10 % на первых 50–60 опрошенных, потом медленно уменьшаются, и при достижении выборки 450–500 респондентов относительный прирост новых реакций колеблется в пределах 1 %. Теперь проанализируем результаты для РАС. На рисунке 6 приведены два графика:
Рост словника на первом шаге составил ~15 тысяч реакций, добавление на следующих двух шагах приблизительно одинаковое и вдвое меньше: 7952 и 7113. В итоге 1500 анкет породили ~30 тысяч разных ответов. На последующих шести шагах прирост новых реакций уменьшается опять двое и колеблется около 3,5–4 тысяч. Для сравнения данных РАС и русской части САС на рисунке 7 даны графики и конкретные значения объемов словников реакций для первых ста анкет с шагом 10 и для остальных с шагом 50. Анализ показывает, что вид кривых одинаков, но количественные показатели для РАС более чем в 1,5 раза выше, так как число стимулов РАС почти в 10 раз больше, чем число стимулов САС.
Рисунок 7. 3. Динамика изменения словника реакций в зависимости от количества ответов на стимулыЕсли данные, представленные выше в таблице рисунка 7, разделить на соответствующее количество анкет, то будет вычислено значение “среднего прироста” словника реакций на одну анкету. Если полученные результаты разделить на количество стимулов в одной анкете, то вычисляется прирост на одно “стимулоупотребление” в анкете. Построенные по рассчитанным данным зависимости даны на рис. 8: для САС — это график (2), а для РАС — график (1). Кривая (2) для САС является одновременно средним приростом количества реакций на одно стимулоупотребление по анкетам и по частоте стимула, поскольку в каждой анкете встречаются все 112 стимулов. Чтобы определить, как меняется словник реакций в зависимости от количества ответов на каждый стимул для РАС, были сделаны такие выборки из базы данных, в которых каждый стимул в среднем встречался кратное десяти число раз (10, 20, 30 … 500), и для них подсчитано количество разных реакций. Полученные данные, разделенные на количество стимулов (т.е. 756) и соответствующие частоты встречаемости стимула, представлены на рис. 8 графиком (3). Поскольку в каждой анкете РАС встречается 100 стимулов из 756, то график (3) является графиком (1), сжатым по оси абсцисс почти в семь с половиной раз. Как показывают графики, прирост словника реакций убывает при увеличении числа опрошенных. График (2) для САС, располагается между графиками (1) и (3) для РАС. Прирост новых реакций на один стимул в САС падает от 0.875 до 0.165, принимая значение 0.3 (т.е. три новые реакции на каждые десять полученных) при 120 ответах и 0.2 при 300 опрошенных. Для РАС величина прироста только в первой точке больше (0.94), а затем кривая резко опускается, и когда получено по 50 ответов на каждый из 756 стимулов, прирост равен 0.3, а при 150 ответах — 0.2, и опускается он до 0.116 при 500 опрошенных. Получилось, что большее количество стимулов, быстрее насыщает словник реакций Rsl. Графики на рис. 8 констатируют, что прирост словника реакций зависит от количества опрошенных респондентов и от числа стимулов в ассоциативном эксперименте, т.е. и размер словника Rsl, является функцией двух переменных. При этом отношение размера словника реакций к величине словника при выборке в сто респондентов не зависит от количества стимулов в опросе, поскольку как показывают графики на рисунке 9 кривые для САС по 112 стимулам и для РАС 1-д по 756 стимулам практически совпадают. Более того, графики на отрезке от 100 до 500 реакций на стимул аппроксимируются прямой линией, уравнение которой дано на рисунке 9 (справа). Получается, что рост словников и для РАС, и для САС при добавлении очередной сотни испытуемых в среднем составляет 36.4%. Частота реакций в ассоциативном поле конкретного стимула при росте объема выборкиКак показано выше, рост словника реакций продолжается при увеличении числа опрашиваемых, а интерполяция графиков, представленных на рисунках 3, 7 и 9, прогнозирует насыщение словников только при увеличении количества респондентов до десятков тысяч человек. В связи с этим встают вопросы: Какое количество респондентов нужно опросить в ассоциативном эксперименте? Что изменяется в каждой словарной статье при увеличении числа опрошенных? Насколько 100 реакций (выборка, наиболее часто используемая исследователями) достаточно для исследования “ассоциативности” слов-стимулов? Для ответа на вопросы, во-первых, проанализируем статьи прямого ассоциативного словаря некоторых стимулов, делая выборки; во-вторых, исследуем как изменяется состав и частоты конкретных реакций при увеличении количества испытуемых от 100 до 600, используя данные по 112 стимулам русского эксперимента в САС. В РАС четыре стимула нести, серьезный, старый, спина имеют частоту предъявления больше тысячи, поэтому разобьем включающие их анкеты на выборки по 100 реакций, и проанализируем статьи прямого ассоциативного словаря этих слов по отдельным выборкам. Начнем с глагола НЕСТИ. Ниже для этого стимула представлено 10 статей прямого словаря, в которых шрифтами выделены следующие классы ответов: жирным прямым — реакции, присутствующие во всех выборках, жирным курсивом — не менее чем в восьми (т.е. в 80% выборок); светлым курсивом помечены неповторяющиеся в других выборках реакции, количество которых в статистических данных указано последней цифрой 3. В итоге невыделенными остались реакции, встречающиеся в двух – семи выборках.
Реакция сумку оказалась самой частотной почти во всех выборках и имела частоты от 7 до 18, другая форма сумка и еще три слова груз, ношу, тяжесть встречаются во всех статьях. Кроме указанных пяти ответов во всех выборках присутствуют от 7 до 11 реакций, выделенных жирным курсивом, то есть для стимула нести в приведенных статьях прямого словаря повторяющиеся ответы составляют от 22% до 34% от общего количества реакции. Частоты конкретных реакций в отдельных выборках сильно колеблются, кроме того, переменными являются и последовательности упорядоченных по убыванию частоты реакций. Всего на стимул нести получено 254 разных ответа, а в отдельных выборках их встретилось от 41 до 58. Одиночные реакции во всех статьях составляют от 60% до 80%. Неповторяющихся (данных только в одной из выборок) ответов получилось 170 реакций, и почти все они имеют частоту 1, кроме двух: положить и тяжелую сумку, встретившихся дважды. В конкретных выборках число таких реакций составляет примерно половину “одиночных” (две последние цифры в словарных статьях). По другим стимулам картина аналогичная, поэтому приведем только первые (частотные) реакции в виде графиков. Последовательность реакций задается величиной “средней частоты” по всем выборкам, которая дана на шкале абсцисс последней 11-ой точкой. Стимул старый получил 238 разных реакций, а в каждой выборке их было около 50. В шести выборках первый, т.е. частный ответ — дед, в двух — молодой, в 10-й — друг, а в 3-ей их два — дед и дом. Первые пять, из указанных на рисунке, получены во всех десяти выборках, а реакции новый, дедушка и пень встретились в девяти статьях, дряхлый, дуб, хрыч, старик, дурак, осел, хрен присутствуют в восьми. Реакции с частотой 1 составляют 70-86%, из которых от 35% до 55% неповторяющиеся ответы. Стимул прилагательное серьезный, представлен на рисунке 11. Для него самыми частотными ответами были человек и разговор, причем первая реакция в восьми выборках явно превосходит по частоте вторую, и только во 2-й выборке разговор имеет большую частоту (16 против 13), и в 3-ей оба ответа имеют одинаковую частоту 13. Следующий ответ мужчина, встречался от 0 до 10 раз, далее идут реакции умный, товарищ, парень, вопрос и др. Для стимула спина результаты представлены двумя вариантами выборок по 100 и 200 опрошенных, и даны значения частот, приведенных. Так как частоты конкретных реакций в отдельных выборках сильно варьируются, ломаные линии отдельных слов на рисунках пересекаются друг с другом. Увеличение количества респондентов вдвое как видно из рисунка, представленного ниже, стабилизирует результаты. Так при выборках 200 испытуемых реакция широкая стала всегда первой, хотя в некоторых выборках по 100 ответы болит и прямая имели бoльшие частоты и линии разных реакций пересекаются значительно меньше. Результаты показывают, что только реакции, данные более чем пятью процентами респондентов, встречаются во всех выборках, причем их количество весьма мало, и в представленных статьях составляет всего 3–6 слов (из общего числа более 250). Данный факт показывает, что реакции с относительной частотой менее пяти являются “вероятностными”. Для подтверждения данного предположения, были проведены исследования по русской части САС. Последовательно выбирались первые 100 анкет, затем 200, 300, 400, 500 и все 594, по которым строились статьи прямого словаря. Затем анализировалось распределение ответов по частотным группам, сколько реакций добавлялось с каждой новой сотней опрошенных и в какие частотные группы. Полученные результаты представлены в таблицах 4 и 5. В таблице 4 показано, что в 112 словарных статьях, сформированных по первой выборке в 100 опрошенных, было получено 6156 пар стимул–реакция; все стимулы содержали реакции с частотами 1 и 2; только 103 стимула имели ответы с частой 3, а 85 с частотой 4, и т.д., всего 747 комбинации стимул–реакция–частота.
Таблица 4 Добавление ста анкет породило еще 3311 пар стимул–реакция, которые добавили всем 112 стимулам “одиночные” реакции, 64 стимула получили ассоциации с частотой 2, 11 новых реакций встретились трижды, а стимул родина четырежды получил реакцию страна, и на стимул думать пять респондентов ответили мыслить. При дальнейшем пошаговом росте количества опрошенных на 100 (до 594), как показывает таблица, всем стимулам добавлялись новые единичные реакции (количество которых дано в таблице 5). Реакции с частотой 2 добавляло более половины стимулов, а с частотой 3 около десятка. Частоты для новых реакций 4 и 5 встретились довольно редко, а добавления новых реакций с частотой встречаемости более пяти не было. Это позволяет подтвердить вывод о том, что реакции, имеющие относительную частоту встречаемости более пяти, получены уже в первой выборке из 100 респондентов, и констатировать, что рост словника реакций Rsl происходит только за счет добавления “низкочастотных” ответов (с частотами 1, 2 и 3). Следует отметить, что указаны абсолютные частоты, а относительные частоты будет меньше в двое-пятеро раз. В Таблица 5 стимулы приведены не в алфавитном порядке, а упорядочены по убыванию количества разных реакций в словарной статье прямого словаря по выборке 100 опрошенных. Числовые данные показывают, что каждая новая сотня анкет добавляет к уже имеющимся единичным реакциях столь много новых, что их количество обычно превышает 50% от полученных на первой сотне.
Таблица 5. Подведем некоторые итоги квантитативных исследований ассоциативных словарей, которые позволили получить следующие основные результаты и выводы:
Литература1 Работа выполнена при финансовой поддержке ведущей научной школы № НШ 1974-2003-6 и гранта РФФИ № 05-06-80284. 2 При обработке результатов опроса, выяснилось, что четыре стимула: нести, спина, серьезный, старый в исходном списке случайно опрашивались дважды, и на них было получено 1000 реакций. 3 Напомним, что означают другие цифры: первая — всего получено ответов, вторая — разных реакций, третья — отказов от ответа, четвертая — число реакций с частотой единица. |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
© НОК CLAIM, 2006-2012. Замечания, вопросы и сведения об ошибках просим сообщать в форуме или присылать администратору сайта. |
|