Н

Н.Г. Прохорова

Особенности построения предметных СУБД на примере электронной энциклопедии “Отечественные лексикографы”

Введение

В рамках данной статьи предлагается рассмотреть особенности построения предметных систем управления базами данных (СУБД) на примере электронной энциклопедии “Отечественные лексикографы XVIII–XX вв.” Система содержит материалы по выдающимся ученым прошлого и современности: Е.Р.Дашковой, А.С.Шишкове, В.И.Дале, Д.Н.Ушакове, С.И.Ожегове, Н.М.Шанском, О.Н.Трубачеве и другим, — они стоят во главе наиболее значимых лексикографических изданий и посвятили свою жизнь созданию словарей и энциклопедий.

В энциклопедии имеются биографические данные об отечественных лексикографах — людях, изучающих теорию и практику составления словарей, дается их полный жизненный и творческий путь, перечисляются работы в области составления словарей, содержатся оценки трудов самими авторами и людьми, знавшими их. Основная задача энциклопедии — дать наиболее полно биографические и библиографические данные относительно каждой персоналии.

Специфика представляемого материала

Данная тематика для электронной энциклопедии выбрана не случайно. В настоящее время выпущены две книги серии “Отечественная лексикография”: отечественные лексикографы XVIII–XIX вв. (формат 60´ 90 ¹/₁₆, 184 с.) и отечественные лексикографы XX в. (формат 60´ 90 ¹/₁₆, 288 с.) [Богатова, 1998; Богатова, 1999]. Но, как известно, книгу невозможно расширять до бесконечности: ее объем ограничен количеством страниц, и все имеющиеся данные по персоналии не уместить на 20–30 страницах, выделенных на нее. Поэтому и было решено сделать более полную электронную версию хрестоматии, которая не имеет жестких ограничений по объему представляемых материалов.

Основным принципом создаваемой системы является стремление отразить в ней всю имеющуюся информацию. Отсюда и главная сложность — неравномерность распределения информации, ее разнородность. По одним персоналиям имеется только один очерк с приложенной к нему фотографией, а по другим — несколько текстов, воспоминания, отзывы и цитаты, различные архивные материалы и несколько десятков старых архивных фотографий. Это приводит к трудностям структурирования имеющихся данных.

Концептуальное проектирование

В результате анализа предметной области (ПО) по книгам “Отечественные лексикографы” (рис. 1), сравнения электронных энциклопедий фирмы “Кирилл и Мефодий”, электронного “Словаря Брокгауза и Ефрона” фирмы “Колибри” были определены основные пункты рассмотрения персоналий:

Фамилия, Имя, Отчество (ФИО);

годы жизни;

очерк жизни;

нить жизни (таблица, содержащая основные даты из жизни персоналии и комментарии к ним);

альбом фотографий, который включает в себя фотографии самого лексикографа в различные годы его жизни, фотографии титульных листов и страниц текста из книг, написанных им, и поясняющие статьи к каждой фотографии.

Рис. 1. Титульный лист статьи о персоналии
книги “Отечественные лексикографы”

О каждом лексикографе, помимо биографических сведений, даются библиографические. Здесь представлены:

перечень книг, статей и заметок, касающихся теории и практики составления словарей, с указанием — в каком году и где была выпущена или написана работа, а также приводятся отрывки из самой работы;

высказывания лексикографов о разных областях жизни человека, с указанием, если известно, времени написания и работы, из которой взят отрывок;

основная литература о данном лексикографе;

отзывы различных людей о лексикографах.

Кроме информации, присутствующей в книге, электронная энциклопедия будет иметь альбом фотографий с комментариями.

Формальное представление предметной области

Проведя анализ предметной области и выявив ее основные элементы, построим ее семантическую модель. Семантическая модель ПО есть ее смысловое содержание (знание о ПО), представленное с помощью некоторого формального аппарата и предназначенное для обеспечения какого-либо этапа процедуры решения задач [Шемакин, 1995]. Введение семантических моделей позволяет сформировать базы знаний. Представим ПО “Отечественные лексикографы” в виде ориентированного семантически связанного графа.

Определение геометрического графа:

Пусть на плоскости или пространстве дан конечный набор точек и некоторые из них соединены между собой дугами, причем две дуги не имеют общих точек, либо их точки являются концевыми, тогда это образование называется геометрическим графом G [Кук, 1986]. Точки — вершинами графа V, дуги — ребрами графа R.

Граф G = (V, R).

Дуги, соединяющие точку с ней самой, называются петлями.

Основными числовыми характеристиками графа являются [Кук, 1986]:

|V| = N — число вершин графа, т.е. число основных элементов ПО;

|R| = M — число ребер (дуг) графа, т.е. число связей между элементами ПО;

d(v) — степень вершины v, то есть количество ребер, инцидентных с вершиной v (то есть ребер R, для которых v Î R);

k — число несвязанных компонент графа. При построении графа ПО может получиться не один цельный (связный) граф, а несколько несвязанных между собой графов, которые можно рассматривать как подграфы ПО;

i(s) — число вершин степени s, т.е. i(s) = | {d(v_i)=s } | .

Основное свойство: ;

расстоянием между двумя вершинами u и v связного графа (подграфа) называется r (u,v), оно равно минимальному числу ребер, соединяющих эти вершины (рассматривается тот случай, когда длины всех ребер одинаковы и равны 1);

диаметром графа называется величина ;

основное свойство любого графа:

Для построения ориентированного графа определяем основные элементы ПО. Такими будем считать:

ФИО персоналии;

годы жизни;

очерк жизни;

нить жизни (основные даты, примечания к ним);

основные высказывания персоналии и о ней (текст высказывания, год написания, примечания к высказыванию, автор);

фотографии и комментарии к ним;

основные труды персоналии и литература о ней (название работы, год написания, текст работы, примечания к работе, автор).

Все эти элементы образуют совокупность вершин графа V, а связи между элементами — совокупность ребер R. Связи между элементами строятся по принципу родо-видовых отношений, относящихся к экстралингвистическим отношениям. Связь идет от основного элемента, представляющего заданный род, к частному элементу, относящемуся к определенному виду. Например, ФИО персоналии определяет годы жизни, очерк жизни, фотографии, поэтому необходимо связать их дугами, начинающимися в вершине “ФИО персоналии” и заканчивающимися в вершинах “Годы жизни”, “Очерк жизни”, “Фотографии”. Таким образом, под связью понимаются возможные переходы между объектами ПО.

Полученный граф представлен на рис. 2.

Рис. 2. Ориентированный граф предметной области

Теперь проанализируем построенный граф семантической связности между объектами ПО.

Формальные характеристики графа

Число вершин графа ПО: N = 19.

Число ребер графа ПО: M = 27.

Число несвязанных компонент графа: k = 0.

Для определения диаметра графа [diam(G)] — максимального числа “переходов” между объектами ПО строится матрица инцидентности (связности) по полученному орграфу: M = (a_ij), где a_ij = (0, 1), 1 — если ребро выходит из соответствующей вершины v_i и входит в соответствующую вершину v_j, 0 — если такой связи нет.

Рассчитаем диаметр графа. Данная характеристика интересна тем, что позволяет оценить наибольший “путь”, связывающий элементы исследуемой ПО. Определить diam (G) можно используя следующую формулу, которая справедлива для ориентированного, не содержащего циклов графа:

, где .

Поскольку утверждение об ацикличности графа ПО неверно, то найдем значение диаметра графа с помощью итеративного алгоритма, на первом этапе которого необходимо перемножить матрицу инцидентности саму на себя, а на каждом следующем этапе результат предыдущего шага умножать на матрицу связности. На каждом шаге элементами полученной матрицы будут являться число путей из I в J длиной численно равной текущей степени матрицы связности.

В результате получим, что максимальным путем (без учета петель) в нашем орграфе является путь длины 5. Таких путей в ПО можно найти шесть:

№ п/п

Вершина, из которой выходит ребро

Вершина, в которую входит ребро

Количество путей

1

3

19

2

2

15

5

2

3

15

7

2

Следовательно, диаметр построенного орграфа diam G = 5, то есть максимальное число “переходов” между объектами ПО равно пяти.

Проделанный расчет позволяет ответить на следующие вопросы:

Как связаны между собой объекты ПО.

Какова степень детализации базы данных, которая должна хранить информацию о персоналиях (под степенью детализации будем понимать длину цепочки из отношений базы данных, каждая пара которой связана как 1:n).

Насколько велико число переходов между объектами ПО в интерфейсе информационной системы.

Выделение сущностей, их атрибутов и анализ семантических связей между сущностями

Выделение сущностей и их атрибутов необходимо для разработки баз данных электронной энциклопедии. Такую структуру можно представить с помощью инфологической модели — концептуального представления объектов информационной системы. Для описания инфологической модели используется модель “сущность-связь” (entity-relation model) [Ревунков, 1992] и элементы реляционной алгебры [Мейер, 1987]. Модель “сущность-связь” является формальным представлением предметной области и может быть использована на этапе инфологического проектирования баз данных. Она позволяет моделировать объекты ПО, в которых применяются базы данных, а также взаимоотношения этих объектов. Относительная простота модели, применение естественного языка и легкость понимания позволяют использовать ее также как инструмент для общения с будущими пользователями с целью сбора информации о ПО для проектирования базы данных системы.

Основное назначение неформальной модели “сущность-связь” — семантическое описание предметной области и представление информации для обоснования выбора видов моделей и структур данных, которые в дальнейшем будут использоваться в системе.

Существует несколько подходов к построению моделей типа “сущность—связь”. Однако общим для всех этих подходов является использование трех основных конструктивных элементов для представления составляющих ПО: сущности, атрибуты и связи [Ревунков, 1992].

Сущность — это собирательное понятие, некоторая абстракция реально существующего объекта, явления или процесса, о котором необходимо хранить информацию в системе. В качестве сущностей в моделях ПО могут рассматриваться как материальные объекты (книги, люди, фотографии и т.д.), так и нематериальные (описание некоторого явления, рефераты научных статей и т.п.). В моделях типа “сущность-связь” каждая рассматриваемая конкретная сущность является узловой точкой сбора информации о представляемом объекте ПО. Для обозначения конкретных экземпляров сущностей используются специальные атрибуты, выполняющие роль идентификаторов. Это может быть один или несколько атрибутов, значения которых позволяют отличить один экземпляр сущности от другого.

Атрибут — это поименованная характеристика сущности. Атрибут принимает значения из некоторого множества значений. В модели атрибут выступает в качестве средства, с помощью которого моделируются свойства сущностей. Для того, чтобы задать атрибут в модели, необходимо присвоить ему наименование, привести смысловое описание атрибута, определить множество его допустимых значений и указать его роль, то есть указать, для чего он используется.

Связь — средство в модели, с помощью которого представляются отношения между сущностями, имеющими место в ПО.

При анализе связей между сущностями могут встречаться бинарные связи (связи между двумя сущностями), тернарные связи (между тремя сущностями) и в общем случае n-арные связи.

Наиболее часто встречаются бинарные связи. Для определения характера взаимосвязей между парами связанных элементов используются отображения и ассоциации. Ассоциация — это односторонняя связь. Отображение представляет собой совокупность ассоциаций — прямой и инверсной, то есть отображение — это двусторонняя связь.

Бинарные связи можно разделить на три основные группы:

Отображение 1:1 (связь один-к-одному). Это отображение определяет такой тип связи между элементами А и В, когда каждому экземпляру элемента A соответствует один и только один экземпляр элемента B.

Отображение 1:M (связь один-ко-многим).

Отображение M:M (связь многие-ко-многим).

На основе графа семантической связности можно разбить все объекты предметной области на некоторые группы, которые объединяются в сущности. Основные данные, касающиеся личности лексикографов: ФИО, годы жизни, фотография, очерк их жизни, архивные материалы и т.д. рассмотрим как единую сущность “Лексикографы”. Просмотреть по годам подробную деятельность персоналий в данной сущности невозможно, поэтому введем сущность “Нить жизни”, расписывающую всю жизнь лексикографа по периодам. Здесь указывается: начало и конец периода, где проходил период, деятельность и основные контакты указанного человека.

Учеными было написано немало методологических работ о том, в каком порядке и что надо указывать в словарях, а также многими из них оставлены труды в разделе близком к лексикографии — лексикологии. Все сведения о написанном ими логически объединяются в сущность “Библиография”. Но, помимо множества книг и статей, можно выделить цитаты, касающиеся различных разделов русского языка. Все цитаты объединяются в одну сущность “Цитаты” с указанием, если известно, из какого источника она взята.

Аналогично библиографии все данные о литературе, содержащей информацию о лексикографах, относятся к сущности “Литература”, а все отзывы других людей о лексикографах — к сущности “Отзывы”.

По каждому лексикографу имеется набор фотографий, помимо основной фотографии, относящейся к сущности “Лексикографы”. Здесь представлены фотографии людей в различные годы жизни, групповые фотографии, фотографии мест, связанных с данным человеком. К каждой фотографии прилагается текст, комментирующий ее. Эти данные объединены в сущность “Пакет фото”.

С учетом вышеуказанных комментариев получаем следующие сущности и первоначальную схему базы данных:

Лексикографы (Номер лексикографа, ФИО краткое, ФИО полное, Дата рождения, Дата смерти, Девиз, ФИО автора девиза, Основная фотография, Очерк жизни, Из архива).

Библиография (Номер работы, Название работы, Издательство, Год издания, Отрывок из работы).

Цитаты (Номер цитаты, Текст цитаты, Название источника цитаты, Когда была сказана, Комментарии к цитате).

Нить жизни (Номер периода, Очередная дата, Комментарии к периоду).

Литература (Номер работы, Название работы о лексикографе, Автор, Издательство, Год издания, Примечания).

Отзывы (Номер отзыва, ФИО человека, написавшего отзыв, О человеке написавшем отзыв, Когда написан, Текст отзыва).

Пакет фото (Номер фото, Комментарии к фотографии, Фотография).

Логическое проектирование схемы базы данных

Ввиду избыточности построенной пробной модели БД полученные таблицы необходимо оптимизировать.

Для построения эффективных баз данных используют математический аппарат реляционной алгебры. Опишем его основные моменты [Мейер, 1987]:

Операции реляционной алгебры — это операции над множествами.

Множество поименованных атрибутов, из которых состоит плоская таблица (отношение, сущность) называется схемой отношений R.
R = (A₁, A₂, ..., A_N).

Конкретная таблица (совокупность объектов сущности) с заданной схемой отношений называется экземпляром отношения или просто отношением r.

Строка любого отношения (состоящая из атрибутов сущности) называется кортежем.

Если A = {A₁,A₂,...,A_N} — множество всех атрибутов некоторой ПО и заданы схемы отношений R₁,R₂,...R_K такие, что , тогда множество r = {R₁,R₂,..., R_K} называется схемой базы данных.

Над множествами отношений вводятся следующие операции: объединение отношений (), разность отношений (R₃ = R₁ — R₂), декартово произведение (), проекция на атрибуты (), селекция (), естественное соединение ().

Вводится понятие функциональных зависимостей для атрибутов ПО. Говорят, что функционально определяет , то есть (X® Y), если в любом экземпляре отношений R, определенном на атрибутах A₁A₂...A_N, не могут содержаться два кортежа, совпадающие по атрибутам X, но не совпадающие по атрибутам Y. Другими словами, совпадение значений атрибутов X автоматически влечет за собой совпадение атрибутов Y.

На основании вышеизложенного, вводятся такие важные понятия как замыкание подмножества атрибутов, покрытие множеств зависимостей, нормальная форма отношений, свойство соединения без потерь, сохранение множества зависимостей и оптимальная схема базы данных.

Из этого можно сделать вывод, что предметные реляционные базы данных (созданные с использованием аппарата реляционной алгебры) представляют собой хорошо отработанную формальную модель представления знаний, для которой существуют автоматизированные технологии поддержки концептуального и логического проектирования.

Построение формальной модели предметной области

Первоначальную неусовершенствованную схему БД r называют “плохой” схемой БД, которую необходимо оптимизировать. Схема БД r является “хорошей”, если она обладает следующими свойствами [Мейер, 1987]:

Соединение без потерь.

Сохранение зависимостей.

Любая схема отношений находится в 3-ей нормальной форме.

Выпишем все множество имеющихся атрибутов (A₁, A₂, ..., A_N). Для наглядности разобьем его на группы и каждому атрибуту поставим в соответствие некоторое наименование:

Атрибуты Наименование

Лексикографы

Порядковый номер лексикографа A₁

ФИО лексикографа краткое A₂

ФИО лексикографа полное A₃

Дата рождения лексикографа A₄

Дата смерти лексикографа A₅

Девиз A₆

ФИО автора девиза краткое A₇

Указатель на основную фотографию A₈

Имя файла очерка жизни A₉

Указатель на архивный документ A₁₀

Библиография

Порядковый номер труда A₁₁

Название труда A₁₂

Указатель на фотографию A₈

Указатель на архивный документ A₁₀

Цитаты

Порядковый номер цитаты A₁₃

Текст цитаты A₁₄

Источник цитаты A₁₅

Нить жизни

Порядковый номер нити жизни A₁₆

Дата события A₁₇

Описание A₁₈

Указатель на фотографию A₈

Указатель на архивный документ A₁₀

Литература

Порядковый номер работы A₁₉

Название работы A₂₀

Указатель на фотографию A₈

Указатель на архивный документ A₁₀

ФИО автора работы краткое A₂₁

Отзывы

Порядковый номер отзыва A₂₂

Текст отзыва A₂₃

ФИО автора отзыва A₂₄

Пакет фотографий

Порядковый номер фотографии A₈

Имя файла фотографии A₂₅

Примечание A₂₆

Персоналии

Порядковый номер персоналии A₂₇

ФИО персоналии краткое A₂₈

ФИО персоналии полное A₂₉

Дата рождения A₃₀

Дата смерти A₃₁

Указатель на фотографию A₃₂

Информация о персоналии A₃₃

Архив

Порядковый номер архива A₁₀

Имя файла архива A₃₄

Примечание A₃₅

Получаем множество наименованных атрибутов ПО “Отечественные лексикографы” R = (A₁A₂A₃...A₃₅).

Можно заметить, что некоторые группы, выделенные ранее, сильно изменились. В группах “Библиография” и “Литература” отсутствуют атрибуты: Издательство, Год издания, Примечание, вся информация записывается в Название работы. Для удобства хранения данных выделены дополнительные группы: “Архив”, “Персоналии”. Группа “Персоналии” создана для хранения данных о людях, писавших очерки, отзывы, статьи и книги о лексикографах.

Фотографии и архивные документы хранятся в отдельных папках Photo и Docum, а в таблицах будут прописываться соответствующие имена файлов.

Оптимизация формальной модели

Чтобы связать выбранные группы, укажем существующие в этой схеме отношений функциональные зависимости. Например, для любого номера лексикографа A₁ существуют только одно ФИО лексикографа краткое A₂, ФИО лексикографа полное A₃, дата рождения A₄, дата смерти A₅, девиз A₆, имя файла очерка жизни A₉, то есть A₁ функционально определяет A₂A₃A₄A₅A₆A₉ (A_1®A₂A₃A₄A₅A₆A₉). По этому принципу строим все остальные функциональные зависимости.

Получаем следующее множество функциональных зависимостей F:

A_1®A₂A₃A₄A₅A₆A₉ A_19®A₁A₂₀A₈A₁₀A₂₁

A₆A_7®A₁ A_22®A₁A₂₃A₂₄

A_11®A₁A₁₂A₈A₁₀ A_8®A₁A₂₅A₂₆

A_13®A₁A₁₄A₁₅ A_27®A₂₈A₂₉A₃₀A₃₁A₃₂A₃₃

A_16®A₁A₁₇A₁₈A₈A₁₀ A_10®A₁A₃₄A₃₅

Воспользуемся следующим алгоритмом построения “хорошей” схемы БД:

1. Множество схем отношений r , образующих вначале схему БД, равно 0, то есть r =0.

2. Найдем G — минимальное покрытие для множества функциональных зависимостей F. Покрытие G называется минимальным, если оно обладает следующими свойствами:

содержит минимальное число зависимостей;

содержит минимальное число атрибутов в левой и правой частях зависимостей из G.

Первоначально G присваиваем все множество функциональных зависимостей F: G = {A_1®A₂A₃A₄A₅A₆A₉, A₆A_7®A₁, A_11®A₁A₁₂A₈A₁₀, A_13®A₁A₁₄A₁₅,

A_16®A₁A₁₇A₁₈A₈A₁₀, A_19®A₁A₂₀A₈A₁₀A₂₁, A_22®A₁A₂₃A₂₄, A_8®A₁A₂₅A₂₆, A_27®A₂₈A₂₉A₃₀A₃₁A₃₂A₃₃, A_10®A₁A₃₄A₃₅}

Упростим G. Для этого расщепим первую функциональную зависимость A_1®A₂A₃A₄A₅A₆A₉ на A_1®A₂, A_1®A₃, A_1®A₄, A_1®A₅, A_1®A₆, A_1®A₉.

A_1®A₂ :

G — (A_1®A₂) = {A_1®A₃A₄A₅A₆A₉, A₆A_7®A₁, A_11®A₁A₁₂A₈A₁₀, A_13®A₁A₁₄A₁₅, A_16®A₁A₁₇A₁₈A₈A₁₀, A_19®A₁A₂₀A₈A₁₀A₂₁, A_22®A₁A₂₃A₂₄, A_8®A₁A₂₅A₂₆, A_27®A₂₈A₂₉A₃₀A₃₁A₃₂A₃₃, A_10®A₁A₃₄A₃₅}

A₁⁺= A₁A₃A₄A₅A₆A₉ ¹ R Þ (A_1®A₂) Ë (G — (A_1®A₂))⁺ Þ G не меняется

Для всех A_1®A₃, A_1®A₄, A_1®A₅, A_1®A₆, A_1®A₉ — аналогично. Другие функциональные зависимости проверяются также.

В итоге получаем следующее минимальное покрытие:

G = {A_1®A₂A₃A₄A₅A₆A₉, A₆A_7®A₁, A_11®A₁A₁₂A₈A₁₀, A_13®A₁A₁₄A₁₅, A_16®A₁A₁₇A₁₈A₈A₁₀, A_19®A₁A₂₀A₈A₁₀A₂₁, A_22®A₁A₂₃A₂₄, A_8®A₁A₂₅A₂₆, A_27®A₂₈A₂₉A₃₀A₃₁A₃₂A₃₃, A_10®A₁A₃₄A₃₅}

3. Любое V® W из G заменяем на множество VW. Полученное множество отношений обозначим как Q. Получаем следующее Q:

Q = {A₁A₂A₃A₄A₅A₆A₉, A₁A₆A₇, A₁A₁₁A₁₂A₈A₁₀, A₁A₁₃A₁₄A₁₅, A₁A₁₆A₁₇A₁₈A₈A₁₀, A₁A₁₉A₂₀A₈A₁₀A₂₁, A₁A₂₂A₂₃A₂₄, A₁A₈A₂₅A₂₆, A₂₇A₂₈A₂₉A₃₀A₃₁A₃₂A₃₃, A₁A₁₀A₃₄A₃₅}

4. Если схема отношений из всех атрибутов принадлежит Q, то добавляем эту схему отношений в r . В нашем случае A₁A₂A₃...A₃₅ Ë Q.

5. Добавим в r те атрибуты, которые не входят ни в одно из множеств VW в Q. В нашем случае нет атрибутов из R, не вошедших в Q.

Добавляем в r схемы отношений из Q.

r = {A₁A₂A₃A₄A₅A₆A₉, A₁A₆A₇, A₁A₁₁A₁₂A₈A₁₀, A₁A₁₃A₁₄A₁₅, A₁A₁₆A₁₇A₁₈A₈A₁₀, A₁A₁₉A₂₀A₈A₁₀A₂₁, A₁A₂₂A₂₃A₂₄, A₁A₈A₂₅A₂₆, A₂₇A₂₈A₂₉A₃₀A₃₁A₃₂A₃₃, A₁A₁₀A₃₄A₃₅}

6. Если ни одна из схем отношений, входящих в r не содержит ключ множества атрибутов ПО, то необходимо добавить в r этот ключ в качестве схемы отношений. Ключом X множества атрибутов R называются атрибуты, которые функционально определяют все атрибуты из R и для любого атрибута Y из X верно {Y® все атрибуты R} Ë F⁺[Мейер, 1987].

Найдем ключ множества атрибутов R:

Первоначально X присваиваются все атрибуты из R: X = A₁A₂A₃...A₃₅

Упростим X.

(A₁A₆A₇A₈A₁₀A₁₁A₁₃A₁₆A₁₉A₂₂A₂₇)⁺ = A₁A₂A₃...A₃₅ = R

(A₆A₇A₈A₁₀A₁₁A₁₃A₁₆A₁₉A₂₂A₂₇)⁺ = A₁A₂A₃...A₃₅ = R

(A₇A₈A₁₀A₁₁A₁₃A₁₆A₁₉A₂₂A₂₇)⁺ = A₁A₂A₃...A₃₅ = R

(A₇A₁₀A₁₁A₁₃A₁₆A₁₉A₂₂A₂₇)⁺ = A₁A₂A₃...A₃₅ = R

(A₇A₁₁A₁₃A₁₆A₁₉A₂₂A₂₇)⁺ = A₁A₂A₃...A₃₅ = R

(A₇)⁺ ¹ A₁A₂A₃...A₃₅ = R

(A₁₁)⁺ ¹ A₁A₂A₃...A₃₅ = R

(A₁₃)⁺ ¹ A₁A₂A₃...A₃₅ = R

(A₁₆)⁺ ¹ A₁A₂A₃...A₃₅ = R

(A₁₉)⁺ ¹ A₁A₂A₃...A₃₅ = R

(A₂₂)⁺ ¹ A₁A₂A₃...A₃₅ = R

(A₂₇)⁺ ¹ A₁A₂A₃...A₃₅ = R

Получаем ключ X = A₇A₁₁A₁₃A₁₆A₁₉A₂₂A₂₇. Проверяем, принадлежит ли ключ X какому-либо отношению: A₇A₁₁A₁₃A₁₆A₁₉A₂₂A₂₇ Ï r Þ Полученное множество схем отношений будет:

r = {A₁A₂A₃A₄A₅A₆A₉, A₁A₆A₇, A₁A₁₁A₁₂A₈A₁₀, A₁A₁₃A₁₄A₁₅, A₁A₁₆A₁₇A₁₈A₈A₁₀, A₁A₁₉A₂₀A₈A₁₀A₂₁, A₁A₂₂A₂₃A₂₄, A₁A₈A₂₅A₂₆, A₂₇A₂₈A₂₉A₃₀A₃₁A₃₂A₃₃, A₁A₁₀A₃₄A₃₅, A₇A₁₁A₁₃A₁₆A₁₉A₂₂A₂₇}

Схема БД, состоящая из этих таблиц, будет “хорошей”.

Сравним полученную схему отношений r и построенный ранее граф ПО. Видно, что построенная схема БД обладает одним главным недостатком — неестественным представлением данных сложной структуры. Попытка реализовать описание ПО с помощью “хорошей” оптимизированной схемы БД привела к избыточности структур и трудностям поддержания целостности связей. Построенная оптимизированная схема БД не удобна для реализации и хранения данных. Оптимизированная схема предполагает достижение из любого элемента ПО всех остальных элементов. В данной ПО не нужна связь каждой группы элементов (сущностей) с каждой, поскольку ключевым звеном является группа “Лексикографы”, через которую осуществляется связь всех остальных групп.

В итоге в ПО “Отечественные лексикографы” выделяем следующие сущности:

1. Лексикографы (Порядковый номер лексикографа, ФИО краткое, ФИО полное, Дата рождения, Дата смерти, Девиз, ФИО автора девиза краткое, Указатель на основную фотографию, Имя файла очерка жизни, Указатель на архивный документ) — является центральной и содержит основную информацию о персоналиях и связана со всеми другими сущностями.

2. Библиография (Порядковый номер труда, Порядковый номер лексикографа, Название труда, Указатель на фотографию, Указатель на архивный документ) — содержит сведения о работах, написанных лексикографом.

3. Цитаты (Порядковый номер цитаты, Порядковый номер лексикографа, Текст цитаты, Источник цитаты) — содержит основные высказывания персоналии с указанием источника.

4. Нить жизни (Порядковый номер нити жизни, Порядковый номер лексикографа, Дата события, Описание, Указатель на фотографию, Указатель на архивный документ) — содержит информацию о лексикографах, расписанную по основным периодам их жизни.

5. Литература (Порядковый номер работы, Порядковый номер лексикографа, Название работы, Указатель на фотографию, Указатель на архивный документ, ФИО автора работы краткое) — содержит сведения о работах, написанных другими людьми о лексикографах.

6. Отзывы (Порядковый номер отзыва, Порядковый номер лексикографа, Текст отзыва, ФИО автора отзыва) — содержит отзывы различных людей о персоналиях и основные высказывания персоналии с пояснениями к ним.

7. Пакет фотографий (Порядковый номер фотографии, Порядковый номер лексикографа, Имя файла фотографии, Комментарии к фотографии) — содержит графический материал (фотографии, автографы, листы работ и т.п.) по каждому лексикографу.

8. Персоналии(Порядковый номер персоналии, ФИО краткое, ФИО полное, Дата рождения, Дата смерти, Указатель на фотографию, Информация о персоналии) — содержит основную информацию о персоналиях, писавших работы или отзывы о лексикографах.

9. Архив (Порядковый номер архива, Порядковый номер лексикографа, Имя файла архива, Примечание) — содержит архивную информацию о лексикографах.

Концептуальная схема БД предметной области

Существует несколько способов представления концептуальной схемы базы данных: в виде нотации Баркера, нотации Чена, IDEF-нотации. Опишем основные элементы нотации Баркера:

Сущность (Entity) — представляется прямоугольником. Внутри нее указывается имя сущности и имена атрибутов. Ключевые элементы помечаются #.

Связь (Relationship). Связь является бинарной, то есть представляет собой линию, соединяющую две сущности А и В. Для любой связи должны быть определены имена связи, как со стороны сущности А, так и стороны В. Если каждый экземпляр сущности А должен быть связан с каким-либо экземпляром сущности В, то примыкающая к прямоугольнику А половина линии должна быть сплошной, иначе — пунктирной. Если связь множественная, то линии присоединяются к прямоугольнику сущности в трех точках.

Используя элементы нотации Баркера, построим концептуальную схему для базы данных ПО (рис.3).

Рис. 3. Концептуальная схема ПО в нотации Баркера

Проектирование интерфейса взаимодействия
субъекта с системой

В настоящее время распространены следующие модели представления знаний:

тематические системы управления базами данных;

гипертекстовые системы.

Тематические системы управления базами данных (СУБД) представляют собой системы поддержки какой-либо деятельности. Структура этих систем может сильно различаться в зависимости от целей, на которые они сориентированы. Можно выделить реляционные базы данных, объектно-ориентированные базы данных, сетевые модели и т.п. [Филиппович, 1998]. Наибольшее распространение получили реляционные СУБД.

Наиболее важные критерии реляционных структур для систем организации знаний:

РСУБД являются полностью открытыми системами. В них допускаются операции изменения числа атрибутов, добавления или уменьшения сущностей, перекомпоновки связей и т.п.;

РСУБД не являются самодостаточными. Обычно они представляют определенное множество сущностей в некоторой предметной области, в рамках которых необходимо обеспечить информационную поддержку деятельности субъекта или подсистемы более высокого уровня;

для РСУБД разработаны мощные технологии формирования структуры знаний. В первую очередь это CASE-средства для разработки концептуальной модели баз данных;

для РСУБД реализованы эффективные поисковые возможности на основе использования индексов и ключей;

в РСУБД предусматривается только один вид семантических связей, который заключается в установлении родо-видовых отношений (функциональных зависимостей) между сущностями;

для РСУБД разработаны формальные языки определения и манипулирования данными. Любые конструкции этих языков сводятся к математическим операциям реляционной алгебры. Сегодня наибольшую популярность приобрел язык SQL (структурированный язык запросов)— непроцедурный язык, позволяющий эффективно работать с реляционными структурами.

Основное назначение РСУБД — хранение декларативного знания, описывающего структуру данных о внешнем мире. Процедурное же знание описывает механизмы, способные выполнять некоторые операции (логический вывод, поиск по аналогии, концептуальный анализ и т.д.), используя знания в качестве базы данных [Шемакин, 1985]. Декларативное знание естественным образом вписывается в концепцию реляционной структуры.

Гипертекст можно определить как технологию работы с текстовыми данными, позволяющую устанавливать ассоциативные связи (гиперсвязи) между отдельными терминами, фрагментами, статьями в текстовых массивах и благодаря этому допускающую не только последовательную, линейную работу с текстом, как при обычном чтении, но и произвольный доступ, ассоциативный просмотр в соответствии с установленной структурой связи [Шемакин, 1995]. Текст получает дополнительные измерения, будучи организованным и от начала к концу, и по тематическим линиям, по индексам, библиографическим указателям. Информационные гипертехнологии обеспечивают структурирование информации и произвольный доступ к ее элементам с помощью установления гиперсвязей [Шемакин, 1995].

Особенности гипертекстовых систем:

Гибкость информационной структуры, которую пользователь формирует сам с помощью несложного интерфейса.

Гипертекстовые системы относятся к классу открытых систем: существуют не только средства модификации гипертекстовых структур, но и известна процедура разметки обычного текста, превращающая его в гипертекст. Наиболее распространенным языком разметки текстового документа является HTML (язык разметки гипертекста), который позволяет создавать Internet-страницы.

В общем случае гипертекстовые системы не самодостаточны. Это следствие того, что концептуальная модель ПО не всегда полностью определена.

В основу гипертекстовых систем заложен принцип произвольного доступа к элементам, благодаря ассоциативным связям. Гипертекстовые системы последнего поколения помимо “естественных” поисковых возможностей по ассоциативным деревьям имеют возможности поиска по ключевым словам, по индексам, полнотекстового поиска и т.п.

Гипертекстовые системы предметно зависимы. Гипертекстовая система всегда создается с учетом специфики ПО, в которой она функционирует.

Основной недостаток гипертекстовых систем: в них отсутствуют автоматизированные механизмы формирования структуры знаний — выделение сущностей и установления связей между ними.

В настоящее время в гипертекстовых системах эффективно применяются мультимедийные технологии [Шемакин, 1995]. Правильнее даже говорить не о гипертекстовых, а о гипермедийных системах и технологиях. “Мультимедиа” (multimedia) — это интерактивные системы, обеспечивающие работу с неподвижными изображениями и движущимся видео, анимированной компьютерной графикой и текстом, речью и высококачественным звуком. Использование мультимедиа дает возможность гипертекстовым (гипермедийным) системам работать не только с декларативным знанием, но и с процедурным.

Обоснование выбранной модели представления

Основная проблема в проектировании систем подобного вида — проблема разработки структуры хранения информации в системе. К системе “Отечественные лексикографы” были предъявлены следующие требования:

Хранение текстовой, числовой и графической информации по отечественным лексикографам.

Быстрый поиск, выдача и просмотр информации.

Возможность сортировки.

Этим требованиям удовлетворяет структура хранения данных в виде БД. Одним из преимуществ такой структуры является возможность совместного хранения различных форм данных и наличие взаимосвязей между ними. В этой системе существует возможность получения выборки (списка) персоналий, удовлетворяющих условиям, которые пользователь может задать сам. Кроме этого, пользователь имеет возможность выполнить пересортировку списка персоналий по алфавиту или по годам жизни.

Гипертекстовая технология позволяет легко осуществлять доступ к элементам баз данных с помощью установленных гиперсвязей.

Специфика диалога в предметной БД

Интерфейс в данной системе комбинированный: за основу взят sdi-интерфейс и в него внедрены элементы гипертекста. В системе имеется главное окно с размещенной в ней основной информацией, из него возможны переходы в другие окна с помощью расположенных в нем гипертекстовых ссылок, которые по своей структуре похожи на кнопки вызова окон. Количество таких переходов не бесконечно, а ограничено количеством окон (в данной версии системы их 12). В системе гипертекстовыми ссылками могут быть фамилии персоналий, наименования разделов, указания для перехода к другим записям, фотографиям и документам. В общем случае, если на экране имеется подчеркнутый текст — это гиперссылка. В главном окне есть следующие варианты гиперссылок: очерк жизни, из архива, нить жизни, заветные мысли, отзывы, фотоархив, библиография, литература. Все окна стандартные, в них только располагается разная информация — для каждой персоналии своя.

Заключение

Одним из преимуществ электронной энциклопедии перед книжным изданием является возможность поиска информации по каким-либо критериям. В отличие от книжного издания, система содержит большое количество фотографий и иллюстраций, относящихся к различным периодам жизни лексикографов, встроенный краткий энциклопедический словарь по персоналиям, позволяющий в любой момент получить справку по автору высказывания или книги. А встроенная гипертекстовая технология дает возможность легко перемещаться по базе данных и получать доступ к интересующей информации.

Предполагается запись данной электронной энциклопедии “Отечественные лексикографы XVIII–XX вв.” на CD-ROM и распространение вместе с полиграфической серией книг.

№ п/п	Вершина, из которой выходит ребро	Вершина, в которую входит ребро	Количество путей
1	3	19	2
2	15	5	2
3	15	7	2

Атрибуты	Наименование
Лексикографы
Порядковый номер лексикографа	A₁
ФИО лексикографа краткое	A₂
ФИО лексикографа полное	A₃
Дата рождения лексикографа	A₄
Дата смерти лексикографа	A₅
Девиз	A₆
ФИО автора девиза краткое	A₇
Указатель на основную фотографию	A₈
Имя файла очерка жизни	A₉
Указатель на архивный документ	A₁₀
Библиография
Порядковый номер труда	A₁₁
Название труда	A₁₂
Указатель на фотографию	A₈
Указатель на архивный документ	A₁₀
Цитаты
Порядковый номер цитаты	A₁₃
Текст цитаты	A₁₄
Источник цитаты	A₁₅
Нить жизни
Порядковый номер нити жизни	A₁₆
Дата события	A₁₇
Описание	A₁₈
Указатель на фотографию	A₈
Указатель на архивный документ	A₁₀
Литература
Порядковый номер работы	A₁₉
Название работы	A₂₀
Указатель на фотографию	A₈
Указатель на архивный документ	A₁₀
ФИО автора работы краткое	A₂₁
Отзывы
Порядковый номер отзыва	A₂₂
Текст отзыва	A₂₃
ФИО автора отзыва	A₂₄
Пакет фотографий
Порядковый номер фотографии	A₈
Имя файла фотографии	A₂₅
Примечание	A₂₆
Персоналии
Порядковый номер персоналии	A₂₇
ФИО персоналии краткое	A₂₈
ФИО персоналии полное	A₂₉
Дата рождения	A₃₀
Дата смерти	A₃₁
Указатель на фотографию	A₃₂
Информация о персоналии	A₃₃
Архив
Порядковый номер архива	A₁₀
Имя файла архива	A₃₄
Примечание	A₃₅

A_1®A₂A₃A₄A₅A₆A₉	A_19®A₁A₂₀A₈A₁₀A₂₁
A₆A_7®A₁	A_22®A₁A₂₃A₂₄
A_11®A₁A₁₂A₈A₁₀	A_8®A₁A₂₅A₂₆
A_13®A₁A₁₄A₁₅	A_27®A₂₈A₂₉A₃₀A₃₁A₃₂A₃₃
A_16®A₁A₁₇A₁₈A₈A₁₀	A_10®A₁A₃₄A₃₅