А.А.Кононков
Системы автоматизированного районирования
В современной лингвистике
достаточно остро стоит проблема внедрения компьютерных технологий в
исследования. Например, одной из форм представления результатов дорогостоящих
экспедиций по изучению диалектов русского языка, является атлас карт ареалов. В
связи со значительной трудоемкостью их построения появилась идея автоматизировать
(компьютеризировать) данный процесс. Задачи, возникающие при попытке
практической реализации этой идеи, условно можно разделить на два блока.
1. Получение групп схожих по неким признакам объектов, которые были
исследованы в ходе экспедиций. В рассматриваемом нами случае объектами были
географические точки местности, точнее места компактного проживания людей, а
признаками являлись некоторые особенности их произношения. Такая постановка
задачи является классической для кластерного анализа, специфическими факторами
диалектологических исследований являются большое количество объектов, а так же
большое количество не коррелированных между собой признаков, хотя меру связей
между признаками, а также важность каждого из признаков еще предстоит выяснить
в ходе работы над системой. В системе предусматривается наличие возможности
исследователю задавать важность признаков, что может вести к изменению состава
и количества получаемых групп объектов, в данном моменте уже будет не обойтись
без вмешательства исследователя, который на основании своего опыта сможет
сказать хорошо ли полученное разбиение или нет.
2. Графическое представление результатов кластеризации. Наиболее
удобным для исследователей результатом является получение карты местности, на
которой проводились исследования с размеченными ареалами распространения тех
или иных диалектов. На данный момент этот этап выполняется вручную самими
исследователями. Затем художники вручную раскрашивают карту.
В начале работы над созданием
любой системы полезно рассмотреть аналоги и прототипы, которые уже созданы и
работают в данной области, или смежных областях. В анализе участвовали
несколько систем. Так как их распространенность мала, а сами системы достаточно
специфичны, информация о них была взята из рекламных проспектов фирм
производителей, а так же на специализированных форумах пользователей систем
данного класса.
Автоматизированная система
построения ареалов обычно включается отдельным модулем в более крупные
геоинформационные системы (ГИС) известных производителей.
Сперва, хотелось бы
остановиться на программе GISCluster 2.0, ее подробное описание представлено в
[Заварзин А.В.] . Данный программный
продукт был разработан чтобы поддержать исследования, основанные на использовании
официальныx статистическиx результатов выборов Президента РФ
Система GISCluster 2.0
позволяет:
·
подгружать любые
географические векторные слои анализа в SHP-формате ESRI;
·
выбирать внешние
таблицы анализа вида объект-признак в текстовом или dBASE (*.dbf) форматах;
·
варьировать
алгоритмами классификации и зонирования;
·
На мой взгляд, по крайне мере
по описанию авторов, система GISCluster 2.0 является одной из лучших в своем
классе, к недостатком системы стоит отнести малое количество признаков по
которым может идти кластеризация их 8, что однако было достаточно для
исследований проводимых авторами данной системы.
Следующей программой в моем обзоре стала
TNTmips для Windows/Unix, ее описание приводиться в [TNTmips для Windows/Unix]
TNTmips для Windows/Unix – это полнофункциональная ГИС, разработанная компанией MicroImages
Inc., USA, для работы с векторными данными, данными дистанционного
зондирования. С одной стороны система обладает большим количеством функций, что
является ее плюсом, среди них:
·
анализ,
обработка, автоматизированное дешифрирование материалов дистанционного
зондирования;
·
фотограмметрическая
обработка изображений;
·
географические
информационные системы;
·
цифровая
картография;
·
составление,
редактирование и издание карт;
·
инвентаризация и
управление городскими и коммунальными службами и жилым фондом;
·
геофизические и
геологические приложения;
·
средства
автоматизации учета земель и построения банков данных по землепользованию;
·
средства для
хранения, сбора, визуализации и анализа на картографической основе
экологической информации;
·
создание
электронных атласов и справочников в различных отраслях производства, науки и
образования.
Но с другой стороны это влечет значительную
цену системы, что при исследованиях, в которых не буду задействованы все
функции системы, важно. Что касается классификации, заявлены следующие функции:
интерактивная, полуавтоматическая и автоматическая классификация. Но так как в
таких системах достаточно жестко зашит алгоритм кластеризации, то повлиять на
результаты не всегда удается, в наших бы исследованиях хотелось бы получить
более гибкий инструмент, и за меньшую цену, т.к. большинство возможностей
подобной ГИС все равно не будут задействованы.
Также хотелось бы отметить серию программ от
компании CNIT,
их характеристики представлены в проспектах на сайте этой компании. Среди них "ЭКОКАРТ" — пакет программных средств для самостоятельного
создания и эксплуатации ГИС в малых исследовательских и учебных проектах. Система
имеет следующие возможности:
·
ввод,
редактирование и аннотирование картографической информации (форматов DXF, PD1,
TRF, ASCII-файлов) в виде отдельных картографических слоев;
·
построение любых
картографических символов и шкал;
·
геопозиционирование
цифровой и символьной информации с точечными, линейными и площадными объектами,
ее автоматическая визуализация различными способами картографического изображения
в виде тематических карт (структурные знаки, картограммы, картодиаграммы,
изолиний и ареалов с выбором или назначением различных стилей оформления);
·
территориальный
поиск и выборки данных путем построения, расчета и ограничения областей различной
пространственной формы;
·
формирование и
воспроизведение на карте подписей различного размера и цвета.
Рис 1. Укрупненная структурная схема системы
К существенному недостатку системы стоит
отнести функционирование ее под управлением системы MS DOS.
Итак,
при необходимости разработки системы для автоматизированного построения ареалов
встает дилемма – писать системы с нуля, что более трудоемкий процесс, но
позволяющий учесть недостатки существующих прототипов и использовать наиболее
эффективный в данной области алгоритм кластеризации. Или писать модуль для
существующей ГИС, что избавляет от некоторых проблем, но влечет за собой другие.
Например, не всегда возможно получить доступ к ГИС через ее API, т.к. обычно производители подобных систем
предпочитают разрабатывать и продавать модули для своей системы сами.
После анализа существующих реалий на рынке
ГИС был выбран вариант написания новой системы, но все же чтобы избежать
возможного провала в разработке, была выбрана модульная схема построения системы,
которая получила название «Кластер-Ареал». Модульная схема позволяет
использовать, например полученное разбиение на группы, после отработки модуля
кластеризации, для построения районирования в другой системе, если модуль
районирования системы «Кластер-Ареал», к тому времени еще не будет разработан.
Укрупненная схема системы приставлена на рис.1, для удобства совмещения модулей
системы был введен еще один модуль — «Модуль взаимодействия с пользователем»,
этот модуль будет представлять собой оконный интерфейс, поддерживающий
интерактивный диалог с пользователем.
Стрелками на рис.1 показаны
входные и выходные потоки, служащие для взаимодействия модулей, а также,
взаимодействия с пользователем. Дальнейшая декомпозиция задач представленных в
начале будет производиться на этапе проектирования системы. Например, данные
будут поступать в систему в виде текстовых файлов с результатами исследования
диалектологов, для этого будет написана функция разбора файлов и проверки
данных. На этапе разбиения объектов на группы предполагается активное участие
человека, путем задания параметров кластеризации. На выходе из системы пользователю
будет представлена информация в графическом виде, которая представляет собой
районы использования диалектов, привязанные к географической карте местности
исследований. Построение районов (ареалов) происходит на основании
кластеризации исходных данных, проводимой в другом модуле системы.
Литература
1 |
|
2 |