Диалектологический атлас русского языка (ДАРЯ)
Диалектологическим атласом принято называть систематизированное собрание карт, показывающих распространение диалектных особенностей данного языка на территории, занятой его носителями. Материал для атласа собирается по специальной программе, охватывающей все стороны языка: фонетику, морфологию, синтаксис, лексику. На каждой из карт атласа при помощи специальной системы условных знаков (значков разного цвета и разной конфигурации или разного типа штриховок и цветных заливок) показано распространение диалектных вариантов какого-либо одного языкового явления (диалектных различий), данные области называют ареалами.
С 1986 г. выходит “Диалектологический атлас русского языка” (ДАРЯ) – лингвогеографический труд, создаваемый диалектологами Института русского языка АН СССР (ныне – Российской академии наук).
Диалектологический Атлас Русского Языка содержит в общей сложности 318 карт, собранных в 4 раздела, которые выходили отдельными выпусками, содержащими как сами карты, так и комментарии к ним: морфология, фонетика, синтаксис, лексика.
Каждая карта имеет только свойственный ей набор диалектологических признаков. Общее количество признаков представленных на всех картах атласа 4195, суммарное количество населенных пунктов в которым проводились исследования 4416.
В конце 80-x годов на основе разработок Ю.Н.Филипповича, Г.А.Черкасовой, И.А.Исаева, А.Н.Лобова в Машинном фонде ИРЯ АН СССР была создана первая версия автоматизированной системы ДАРЯ – Автоматизированного Диалектологического Атласа Русского Языка [Черкасова 1987, Исаев 1987, Лобов 1987]. Данная система была передана в Машинный Фонд ИРЯ. Где на ее базе Н.Н.Пшеничновой была впервые выполнена кластеризация большого массива русских говоров [Пшеничнова 1996]. К сожалению пользование данной системой в настоящее время затруднено в связи с моральным устареванием аппаратных средств на которых она работала. В период 2000-2004 годов Волковым была проведена работа по автоматизации процесса предпечатной подготовки листов ДАРЯ (новых выпусков) [Волков А.Л. Векторная графика: разбиение плоскостей на области. // Интелектуальные технологии и системы. Вып.2. -М.:МГУП, 1999 - С,152-1689].
В настоящем проекте предпринята попытка построения ареалов автоматизированным способом. Для этого, прежде всего, накапливаются электронные версии карт в векторном формате, так же осуществляется привязка пунктов к бланковке карт, затем с помощью алгоритмов кластеризации происходит построение однородных по заданному количеству признаков говоров (в настоящее время использовано 500 пунктов по 100 признакам). Следующим этапом развития комплекса будет на основании собранной информации автоматическое построение ареалов диалектов.