А.Б.Крылов

Технология обработки графических данных 1

Классификация методов машинной обработки изображений

На протяжении последних приблизительно тридцати лет значительная часть прикладных задач обработки информации и анализа данных связана с изображениями (это особенно справедливо для приложений распознавания образов и, отчасти, искусственного интеллекта). Этот процесс отражает как появление новых технических средств получения информации, обеспечивающих представление зарегистрированных и накопленных данных в виде изображений, так и рост популярности и известности собственно распознавания образов в качестве мощной и практичной методологии математической обработки и анализа информации и выявления скрытых закономерностей. В качестве примера можно привести обработку и анализ данных дистанционного зондирования посредством съемки со спутников, объемных изображений объектов, получаемых с помощью голографических установок, результатов применения методов неразрушающих испытаний и контроля в промышленности, разработку органов зрения роботов и современных медицинских систем обследования и диагностики (рентгенография, машинная томография, ангиография, эндоскопия и т.д.). В области машинной обработки обычно выделяют три основных направления: машинную графику, обработку изображений и распознавание зрительных образов-изображений.

Задачи машинной графики сводятся к порождению изображения по исходной информации, представленной в форме, отличной от изображения.

Распознавание изображений — в определенном смысле задача обратная машинной графике. При обработке изображений как начальной, так и конечной информацией служит изображение.

Задача распознавания зрительных образов заключается в получении формального описания предъявленного изображения или в его отнесении к одному из классов.

Таким образом, задачи машинной обработки можно представить в виде схемы (рисунок).


Схема взаимосвязей задач машинной обработки изображений


Классификация изображений

Говоря о компьютерной обработке изображений, целесообразно выделять четыре класса изображений. Эта классификация связана не столько с природой зрительного восприятия изображений, сколько с подходом к их представлению и обработке.

В класс 1 (тоновые и цветные) входят изображения, имеющие вид обычных телевизионных изображений. Они обеспечивают довольно точное восприятие реальности и представляются матрицами с целочисленными элементами, которые обозначают либо яркость (для серых изображений), либо значение интенсивности одной из составляющих RGB (для цветных изображений).

К классу 2 (двухуровневые или представляемые в нескольких цветах) относятся изображения, на которых можно выделить области одного цвета с четкими границами. Подобные изображения можно представлять одной или несколькими битовыми картами. Отметим, что различие между цветными и представляемыми в нескольких цветах изображениями неопределенно и приобретает смысл лишь применительно к способу хранения.

К классу 3 (непрерывные линии и кривые) относятся изображения, которые представляются последовательностями точек. Например, контуры областей диаграммы и графики. Такие изображения обычно представляются в виде цепных кодов.

К классу 4 (точки и многоугольники) относятся изображения, которые состоят из множества отдельных точек, представляемых координатами (X, Y). На основании множества точек при помощи различных математических методов формируется геометрический объект определенной формы.

Данная классификация изображений позволяет определить класс задач машинной обработки изображений.


Преобразование изображений

Множество задач, решаемых машинной обработкой, можно определить как преобразование изображений внутри одного класса и из одного класса в другой.

Преобразования внутри одного класса имеют своей целью улучшение качества изображений либо его подготовку к одному из межклассовых преобразований.

Они, как правило, связаны с изменением значений параметров изображений (линейных размеров, смены палитры цветов, яркости, контрастности и др.).

Межклассовые преобразования нацелены прежде всего на изменение состава и количества параметров, которые характеризуют изображение.

Преобразование изображения класса 1 в изображение класса 2 называется сегментацией и имеет своей целью выделение на тоновом изображении участков однородной структуры с приблизительно одинаковой яркостью либо выделение границ между однородными участками, в результате чего образуется бинарное изображение.

Преобразование изображения класса 2 в изображение класса 3 представляет собой построение (выделение) контуров, а в случае линейных объектов прореживание (утоньшение). В результате преобразования образуется изображение, состоящее из множества треков точек.

Преобразование изображения класса 3 в изображение класса 4 называется сегментацией кривых и предназначено для отыскания критических точек кривой (узлов, углов или вершин). Данное преобразование обычно используется с целью построения векторной модели изображения и распознавания образов.

Преобразование изображения класса 4 в изображение класса 3 включает процессы интерполирования, обеспечивающего проведение гладкой кривой через некоторое множество точек, и аппроксимации, обеспечивающей проведение кривой вблизи некоторого множества точек.

Преобразование изображения класса 3 в изображение класса 2 решает задачи заполнения контуров и восстановления изображения по его остову (расширение), в результате чего получается изображение, представляемое в нескольких цветах или бинарное изображение.

Преобразование изображения класса 2 в изображение класса 1 служит для того, чтобы придать изображению, представленному в нескольких цветах, вид реального изображения, для чего к изображению с четкими границами подмешивается низкочастотный шум либо проводится сглаживание с целью уничтожения ложных контуров.

Таким образом, преобразования от более низких номеров к высоким относятся к сфере интересов распознавания образов, а обратные к процедурам машинной графики.

Задача анализа изображения заключается в получении описания изображения с целью его классификации. Для решения этой задачи используются математические методы преобразований от меньшего класса к большему, а также внутриклассовые преобразования изображений. В результате анализа получается семантическая модель изображения, которая может представлять собой как достаточно простую семантическую конструкцию типа словесного описания изображения, так и реляционную базу данных идентифицированных объектов с их пространственными и качественными характеристиками.


Процедуры и операции получения и преобразования изображений

Системы анализа изображений

Спектр решаемых задач системами анализа изображений (САИ) достаточно обширен, в то же время можно выделить три основных класса задач:

Распознавание образов. В системах этого типа решаются задачи локализации определенных объектов в поле изображения, измерения заданных параметров этих объектов и принятие решения по полученным результатам измерения.

Содержательная интерпретация изображений. В отличие от систем первого типа в данном случае задача заключается в полной содержательной интерпретации снимка, "понимании" отношений между объектами реального мира, представленными своими проекциями на двухмерном изображении.

Получение справочной информации. Задача этих систем — поиск и выдача информации об объектах определенного типа, при этом запрос к базе видеоданных может быть представлен как в виде математического, так и в виде словесного описания объекта на изображении.

Для решения этих задач САИ должны выполнять следующие функции:

  1. Хранение и поиск формализованных знаний экспертов в предметной области обработки изображений. Формализованными знаниями являются установленные факты, закономерности, количественные соотношения, видеоданные (эталоны и прототипы объектов), а также правила, определяющие последовательность и состав операций над графическими данными для достижения заданных целей.
  2. Выполнение операций обработки изображений.
  3. Выполнение операций логических выводов на основе формализованных знаний и результатов обработки видеоданных, построение и проверка гипотез.
  4. Анализ промежуточных результатов работы системы и принятие решения о дальнейших действиях, невозможности решения задачи или необходимости дополнительной информации.
  5. Анализ запросов пользователя, поддержка диалога, документирование действий системы и формирование пояснений пользователю.
  6. Пополнение баз знаний и видеоданных системы новыми сведениями и данными.

Задача анализа изображения может быть формализована следующим образом:

Дано:

Требуется:

найти подмножество алгоритмов (f) из (F), которое обеспечит преобразование множества (I) в подмножества (v) из (V) и (s) из (S) с целью определения принадлежности к одному или нескольким классам из множества (K).

В зависимости от уровня конкретной задачи, специфики предметной области и класса изображения множества (V), (S) или (K) могут вообще отсутствовать, в этом случае задача анализа изображения может ограничиваться созданием семантического описания изображения, либо констатацией факта наличия тех или иных признаков.


Методы предварительной обработки тоновых и бинарных изображений

Методы предварительной обработки включают преобразования внутри одного класса изображений (обычно 1 и 2 классов). Они предназначаются для улучшения качества изображения, выделения на изображении каких-либо областей или очистки изображений от шума.

Условно эти методы можно разделить на две группы: гистограммные и матричные. Первые позволяют на основании гистограммы изображения (зависимость числа точек от интенсивности) повысить либо понизить контрастность изображения, другие, анализируя ближайших соседей каждого пиксела, — присвоить ему новое значение интенсивности. К первой группе можно отнести методы фильтрации и выравнивания гистограмм, ко второй — сглаживание, дифференцирование, эскизирование, разделение по порогу и другие. В результате применения методов образуется изображение того же класса, но отличное от исходного.


Методы создания штриховых изображений (векторизация)

Под векторизацией понимают процесс получения набора векторов из растрового бинарного изображения. В результате создается изображение, состоящее из отрезков с координатами, которое удобно редактировать, масштабировать и проводить с ним целый ряд операций, которые невозможно провести с растровым оригиналом.

Как правило, при векторизации используют два базовых метода: контурный и каркасный. В первом случае проводят чистку заполненных областей с последующей трассировкой контуров, в результате чего образуется последовательность точек с координатами, которая может быть в последующем связана определенной кривой. Недостатком считается представление линейных протяженных объектов в виде двух границ вместо одной линии некоторой толщины. При каркасном методе сначала проводят утоньшение (прореживание), в результате которого образуется каркас (остов), после чего выполняется трассировка и создание векторов. Недостатком метода считается полное или частичное уничтожение “толстых” объектов или существенное искажение их формы и размеров. Вероятнее всего оптимальные результаты могут быть достигнуты при сочетании обоих методов.


Методы формирования объектов и получения семантической модели изображения

При распознавании “содержание” изображения характеризуется информацией трех типов: идентифицируемые объекты с хорошо определенной структурой, идентифицируемые объекты с плохо определенной структурой (нечеткие образы), неидентифицируемые объекты.

Таким образом, в процессе анализа изображения должна использоваться информация, отражающая механизм формирования образа, т.е. как изображения в целом, так и объектов, на нем представленных. Метод создания структуры изображения сводится к ответу на следующие три вопроса: какие объекты (подызображения) можно на нем выделить, насколько сложны сами объекты и какие между ними связи.

Реализуется этот метод при помощи построения модели изображения в виде иерархической структуры более простых объектов, в результате чего удается в явном виде использовать иерархическую информацию, содержащуюся в изображении.

Вводить структурную информацию в процесс распознавания можно двумя способами.

Во-первых, можно сохранить перечень признаков как основной принцип формализации, причем: а) в описание вводятся такие признаки, которые характеризуют взаимосвязь (отношение) удельных признаков; б) самим признакам присваиваются веса, указывающие степень их существенности для описания объекта; в) отдельные признаки объединяются в комплексы и рассматриваются как один признак.

Этот способ синтеза структурных описаний является весьма неэффективным, поскольку его последовательная реализация приводит к существенному усложнению описаний, и распознавание теряет смысл из-за неприемлемого времени анализа.

Во втором способе введения структурной информации в процессе распознавания используется то обстоятельство, что такая информация представляет свойственную реальному миру регулярность, проявляющуюся в возникновении разного рода упорядоченностей и структур. Математическим аналогом этой идеи служит аппарат комбинаторных регулярных структур.

Из сказанного следует, что задача распознавания изображений отличается рядом специфических особенностей, не свойственных задаче распознавания со стандартной информацией. Отметим их.

  1. Построение модели изображения как объекта анализа становится самостоятельной задачей, решаемой в процессе анализа.
  2. Модель изображения должна включать структурную иерархическую информацию, т.е. она должна представлять собой некоторую формальную конструкцию, при получении которой последовательно проводится принцип учета иерархичности структуры объекта и отношений, существующих между отдельными элементами этой иерархии как в пределах одних и тех же уровней, так и между ними.
  3. Изменяются понятия начальной и финальной информации. Процесс распознавания изображений имеет многоуровневый характер, при котором исходная модель изображения в результате применения к ней процедуры распознавания преобразовывается в модель изображения, относящуюся к другому морфологическому уровню; к полученной модели снова применяется процедура распознавания и т.д.

Тесная связь процессов описания и распознавания изображений и необходимость включения в итерационный процесс анализа моделей изображения различных морфологических уровней означают, что алгоритм распознавания помимо распознающего оператора и решающего правила должен включать оператор, осуществляющий приведение изображения к виду, удобному для распознавания.


1 Материалы данной статьи частично вошли в отчет по первому этапу научно-исследовательской работы "Инструментальная среда проектированиямедицинских экспертных систем функциональной диагностики и оценки психофизиологических резервов летчиков с использованием мультимедиа - ориетированных на CASE-технологий (шифр-МЕДЭКСПЕРТ, руководитель - Ю.Н. Филиппович)". НИР проводилась в 1994-1997 гг. в МГТУ им. Н.Э. Баумана, НПП "Фрегат" и Государственном научно-исследовательском испытательном институте (авиационной и космической медицины) Министерство обороны РФ. Кроме этого материалы использовались в книге "Информационные технологии: учебно-методические материалы для студентов вузов"/Сост. и ред. Ю.Н. Филиппович. М., НПП "Фрегат", 1997.