Филиппович А.Ю. Методика фильтрации «шумов» в электронных ассоциативных экспериментах

CLAIM – научно-образовательный кластер

МЕТОДИКА ФИЛЬТРАЦИИ «ШУМОВ»
В ЭЛЕКТРОННЫХ АССОЦИАТИВНЫХ ЭКСПЕРИМЕНТАХ

Методика фильтрации «шумов»разрабатывается в рамках проекта создания Автоматизированной системы научных исследований ассоциативных экспериментов (АСНИ АЭ) при поддержке гранта РГНФ № 06-04-03803в (АСНИ динамики ассоциативно-вербальной модели языкового сознания русских как индикатора образа России в новейшей истории и современности) в рамках конкурса 2006-8 гг. «Образ России в современном мире».

Основные виды шумов в ассоциативных экспериментах

Одним из важнейших факторов, от которых зависит валидность ассоциативного эксперимента (АЭ), является «уровень шума» в ответах респондентов. В общем случае под шумом следует понимать ответы на анкету, которые получены не по правилам эксперимента, или некорректно рассчитанные статистические показатели для группы участников.

При проведении экспериментов через Интернет уровень шума существенно возрастает из-за меньшего контроля со стороны организаторов и наличия дополнительных возможностей у респондентов. В связи с этим важной задачей при создании АСНИ АЭ является разработка методов фильтрации (уменьшения и устранения) шумов.

Все шумы можно разбить на две укрупненные группы. К первой из них относятся сознательно задаваемые респондентом неверные ответы, а ко второй — случайные факторы, вызванные ошибками и особенностями проведения АЭ.

К случайным шумам можно отнести следующее:

орфографические ошибки и опечатки при вводе результатов анкетирования в электронную базу данных;
омонимия слов, приводящая к ошибочному объединению различных по смыслу реакций в единое понятие и подсчету общей частотности;
пустые ответы, вызванные нехваткой у респондента достаточного времени на написание ответов или их ввода в компьютер;
необъективный подсчет частотности ассоциаций, вызванный неравномерностью количества респондентов в опрашиваемых группах, сформированных по половозрастному, географическому, профессиональному или другому принципу;
влияние предшествующего в анкете стимула, реакции или их группы на текущие и последующие ответы.

«Сознательные шумы» зависят от целей, преследуемых респондентами, и условий (механизмов) ассоциативного эксперимента. Их условно можно разделить на следующие виды:

Деструктивные цели, вызванные желанием навредить эксперименту и снизить его валидность. Они могут быть вызваны следующими причинами:

«недобровольный» характер включения респондента в АЭ (часто встречается при анкетировании в вузах и военных частях);
желание проверить или опровергнуть полученные в ходе эксперимента результаты;
«киберспортивный» интерес, который сильно развит среди особой группы пользователей Интернет, часто называемых хакерами;
Рекламные цели, которые реализуются путем размещения в качестве ответов рекламы различных товаров и услуг или ссылок на специализированные электронные ресурсы;
Цели быстрого заполнения анкеты АЭ, которые могут возникнуть в случае использования специальных опросных форм как обязательного предварительного шага для получения доступа к ресурсам проекта или другим необходимым данным.
Желание выделиться среди прочих респондентов за счет оригинальности ответов, использования нецензурных выражений и т.д.

Методы фильтрации шумов

Методы фильтрации шумов можно условно разделить на три группы в зависимости от применимости на различных этапах проведения АЭ:

Методы планирования технологии проведения АЭ с учетом потенциально возможных шумов;
Методы управления процессом проведения интерактивного АЭ;
Методы постобработки данных для выявления типовых шумов.

К первой группе относятся методы, которые направлены на устранение шумов и обеспечения валидности эксперимента за счет оригинальной организации процесса анкетирования и специальной подготовки исходных данных.

Одной из наиболее сложных задач АЭ – ограничение влияния предшествующих в анкете стимула, реакции или их группы на последующие ответы. В настоящее время для этого широко используются методы случайной генерации последовательности стимулов в анкете. Они достаточно эффективно работают для частотных реакций общего характера, однако при проведении прикладных АЭ для исследования отдельных аспектов в рекламных целях или для тематического (например, анализа стимульного ряда «образа России») этого оказывается недостаточно. Компьютерная реализация позволяет расширить возможности организации ассоциативного эксперимента следующим образом:

случайным образом и в заданных границах формировать количество стимулов на одной странице (экране);
отображать в каждый момент времени только один стимул на экране;
проводить контекстный АЭ на web-страницах специализированных сайтов, в поисковых системах и т.д.;
на основе анализа имеющихся данных исключать комбинации частотных ассоциативных цепочек в опросном листе.

Ко второй группе относятся методы и решения, которые определяют для интерактивных АЭ окружающее информационное пространство и функциональные возможности пользователя (респондента).

Для борьбы с орфографическими ошибками можно использовать стандартные подходы шрифтового или цветового выделения ошибочных и неизвестных слов. Основным недостатком такого решения является необходимость использования (или даже разработки) специализированных орфографических модулей, спеллеров и т.д. Дополнительную сложность представляет значительный объем соответствующих программных модулей и баз данных, который не позволяет осуществлять проверку данных на компьютере клиента и требует передачи данных на сервер, что приводит к дополнительным временным затратам.

В качестве альтернативы или дополнения можно использовать списковые элементы компьютерного интерфейса ( ListBox , ComboBox и др.), которые позволяют выбирать ответы из раскрывающегося списка и автоматически фильтровать возможные варианты с учетом набранных первых букв слова. Недостатком такого метода является потенциальная опасность «программирования» возможных ответов, сужая их визуальным рядом, простой и скоростью выбора.

Для борьбы с омонимией слов необходимо предусмотреть специальные механизмы уточнения семантики стимулов и реакций. В первом случае (для стимулов) можно воспользоваться дополнительными пояснениями, представленными в виде текстового сообщения или графического образа. Во втором случае (для реакций) нужно в информационной системе интерактивного АЭ реализовать возможность ввода пояснений. Более сложным решением является предварительное составление списков слов с возможной омонимией и реализацией возможности ввода или выбора соответствующего значения на экранной форме.

Основными недостатками описанных решений являются:

потенциальные изменения в реакциях за счет расширения ассоциативно-вербального поля дополнительными словами и фразами;
дополнительные временные затраты респондента для ввода ответа или выбора уточнений;
необходимость составления специальных баз данных слов с омонимией;
неполнота баз данных слов с омонимией и необходимость разработки инструментов ее динамичного наполнения;
неоднозначность графических образов, факт использования которых выходит за рамки вербального эксперимента и может привести к нежелательным результатам, т.е. реакции на цвет, форму и другие характеристики графического образа вместо реакции на семантику слова-стимула.

Одним из вариантов решения проблем омонимии – проведение специальных АЭ, результаты которых можно использовать для уточнения данных более общих исследований.

Частой проблемой проведения АЭ является различие времени реакции респондентов. При анкетировании группы людей и нормировании среднего времени ответа это приводит к тому, что отдельные участники опроса не успевают давать ответы. Актуальна и обратная ситуация, когда избыток времени приводит к формированию вторичных ассоциаций, нарушая цели и методику проведения эксперимента.

В рамках компьютерного эксперимента можно частично решить эту проблему за счет предварительной персональной настройки эксперимента для каждого респондента. Для этого необходимо разработать тестовый ряд стимулов или специальные задания для проверки скорости реакции. Использование компьютерного АЭ позволяет вести учет времени ответов, а в последующем с помощью статистических методов осуществлять выявление аномалий и фильтрации шумов.

Организация эксперимента в компьютерной среде (в сети Интернет) создает дополнительные сложности, связанные с различной степенью компьютерной компетентности респондента, средств коммуникации (ноутбук, КПК, телефон и т.д.), пропускной способности канала связи, возможностью параллельной работы над другими задачами, неконтролируемыми внешними факторами (фоновые музыка, видеоряд и т.д.).

Некоторые параметры среды можно определить автоматически (скорость соединения, тип программного средства и т.д.) и учитывать в последующем, но часть характеристик пользователь должен указать самостоятельно при настройке своего профиля. Чтобы уменьшить количество отвлекающих факторов можно предложить соответствующие эргономические (размер экранных форм) и программные решения (например, фоновый звук нейтрального характера).

Вместе с тем следует более разносторонне отнестись к задаче устранения внешних факторов, т.к. это может привести к созданию искусственных лабораторных условий эксперимента, которые не встречаются в реальной жизни респондента. Как следствие результаты эксперимента могут оказаться оторванными от действительности и не отражать реальную ассоциативно-вербальную сеть.

Третья группа методов фильтрации шумов направлена на использование уже полученных результатов ассоциативных экспериментов. Эти методы в первую очередь направлены на фильтрацию статистических отклонений, вызванных теми или иными причинами.

Одной из наиболее распространенных задач агрегирования результатов АЭ является подсчет частотности ассоциаций для различных групп, сформированных по половозрастному, географическому, профессиональному или другому принципу. При выполнении подсчетов возникают две основные трудности: экстраполяция частотных характеристик на основе малого числа опрошенных респондентов в конкретной группе и неравномерное количество представителей различных групп.

Для решения этих проблем необходимо изучение динамики изменений свойств ассоциативного поля при увеличении количества опрашиваемых. Исследования, проведенные Черкасовой Г.А. [Черкасова Г.А. Исследования статистических характеристик ассоциативных словарей // Языковая личность: текст, словарь, образ мира. К 70-летию чл.-корр. РАН Юрия Николаевича Караулова: Сб. статей. - М.: Изд-во РУДН, 2006. С. 378-388.], показали, что частотность реакций в ассоциативных экспериментах подчиняется гиперболическому закону, близкому по своим характеристикам к закону Ципфа и Мандельброта. Это означает, что использование простых масштабирующих коэффициентов в общем случае недопустимо.

Методика фильтрации шумов в электронных АЭ

Подводя итог, можно отметить большое разнообразие шумов и методов их фильтрации. Для их эффективного использования требуется разработка специальной методики, которая учитывает особенности конкретного ассоциативного эксперимента. Предлагаемая методика построена по модульному принципу, т.е. подразумевает контекстное использование предложенных методов фильтраци, и включает следующие основные этапы:

Идентификация шумов , которая подразумевает составление общего списка потенциальных шумов;
Классификация шумов , согласно предложенным критериям и возможным методам фильтрации;
Ранжирование шумов , т.е. определение степени критичности различных групп шумов;
Оценка трудоемкости и эффективности использования методов постобработки шумов и разработки средств управления процессом проведения эксперимента;
Формирование списка критичных шумов , которые нецелесообразно или невозможно фильтровать с помощью средств автоматизации проведения АЭ;
Разработка оригинальных приемов и технологий проведения АЭ, которые позволят снизить уровень шума или устранить его полностью за счет правильного планирования процесса анкетирования.