Н.Г. Прохорова

Особенности построения предметных СУБД на примере электронной энциклопедии “Отечественные лексикографы”

 

Введение

В рамках данной статьи предлагается рассмотреть особенности построения предметных систем управления базами данных (СУБД) на примере электронной энциклопедии “Отечественные лексикографы XVIII–XX вв.” Система содержит материалы по выдающимся ученым прошлого и современности: Е.Р.Дашковой, А.С.Шишкове, В.И.Дале, Д.Н.Ушакове, С.И.Ожегове, Н.М.Шанском, О.Н.Трубачеве и другим, — они стоят во главе наиболее значимых лексикографических изданий и посвятили свою жизнь созданию словарей и энциклопедий.

В энциклопедии имеются биографические данные об отечественных лексикографах — людях, изучающих теорию и практику составления словарей, дается их полный жизненный и творческий путь, перечисляются работы в области составления словарей, содержатся оценки трудов самими авторами и людьми, знавшими их. Основная задача энциклопедии — дать наиболее полно биографические и библиографические данные относительно каждой персоналии.

 

Специфика представляемого материала

Данная тематика для электронной энциклопедии выбрана не случайно. В настоящее время выпущены две книги серии “Отечественная лексикография”: отечественные лексикографы XVIII–XIX вв. (формат 60´ 90 1/16, 184 с.) и отечественные лексикографы XX в. (формат 60´ 90 1/16, 288 с.) [Богатова, 1998; Богатова, 1999]. Но, как известно, книгу невозможно расширять до бесконечности: ее объем ограничен количеством страниц, и все имеющиеся данные по персоналии не уместить на 20–30 страницах, выделенных на нее. Поэтому и было решено сделать более полную электронную версию хрестоматии, которая не имеет жестких ограничений по объему представляемых материалов.

Основным принципом создаваемой системы является стремление отразить в ней всю имеющуюся информацию. Отсюда и главная сложность — неравномерность распределения информации, ее разнородность. По одним персоналиям имеется только один очерк с приложенной к нему фотографией, а по другим — несколько текстов, воспоминания, отзывы и цитаты, различные архивные материалы и несколько десятков старых архивных фотографий. Это приводит к трудностям структурирования имеющихся данных.

Концептуальное проектирование

В результате анализа предметной области (ПО) по книгам “Отечественные лексикографы” (рис. 1), сравнения электронных энциклопедий фирмы “Кирилл и Мефодий”, электронного “Словаря Брокгауза и Ефрона” фирмы “Колибри” были определены основные пункты рассмотрения персоналий:

 

Рис. 1. Титульный лист статьи о персоналии
книги “Отечественные лексикографы”

 

О каждом лексикографе, помимо биографических сведений, даются библиографические. Здесь представлены:

Кроме информации, присутствующей в книге, электронная энциклопедия будет иметь альбом фотографий с комментариями.

Формальное представление предметной области

Проведя анализ предметной области и выявив ее основные элементы, построим ее семантическую модель. Семантическая модель ПО есть ее смысловое содержание (знание о ПО), представленное с помощью некоторого формального аппарата и предназначенное для обеспечения какого-либо этапа процедуры решения задач [Шемакин, 1995]. Введение семантических моделей позволяет сформировать базы знаний. Представим ПО “Отечественные лексикографы” в виде ориентированного семантически связанного графа.

Определение геометрического графа:

Пусть на плоскости или пространстве дан конечный набор точек и некоторые из них соединены между собой дугами, причем две дуги не имеют общих точек, либо их точки являются концевыми, тогда это образование называется геометрическим графом G [Кук, 1986]. Точки — вершинами графа V, дуги — ребрами графа R.

Граф G = (V, R).

Дуги, соединяющие точку с ней самой, называются петлями.

Основными числовыми характеристиками графа являются [Кук, 1986]:

  1. |V| = N — число вершин графа, т.е. число основных элементов ПО;
  2. |R| = M — число ребер (дуг) графа, т.е. число связей между элементами ПО;
  3. d(v) — степень вершины v, то есть количество ребер, инцидентных с вершиной v (то есть ребер R, для которых v Î R);
  4. k число несвязанных компонент графа. При построении графа ПО может получиться не один цельный (связный) граф, а несколько несвязанных между собой графов, которые можно рассматривать как подграфы ПО;
  5. i(s) — число вершин степени s, т.е. i(s) = | {d(vi)=s } | .
  6. Основное свойство: ;

  7. расстоянием между двумя вершинами u и v связного графа (подграфа) называется r (u,v), оно равно минимальному числу ребер, соединяющих эти вершины (рассматривается тот случай, когда длины всех ребер одинаковы и равны 1);
  8. диаметром графа называется величина ;
  9. основное свойство любого графа:
.

Для построения ориентированного графа определяем основные элементы ПО. Такими будем считать:

Все эти элементы образуют совокупность вершин графа V, а связи между элементами — совокупность ребер R. Связи между элементами строятся по принципу родо-видовых отношений, относящихся к экстралингвистическим отношениям. Связь идет от основного элемента, представляющего заданный род, к частному элементу, относящемуся к определенному виду. Например, ФИО персоналии определяет годы жизни, очерк жизни, фотографии, поэтому необходимо связать их дугами, начинающимися в вершине “ФИО персоналии” и заканчивающимися в вершинах “Годы жизни”, “Очерк жизни”, “Фотографии”. Таким образом, под связью понимаются возможные переходы между объектами ПО.

Полученный граф представлен на рис. 2.

Рис. 2. Ориентированный граф предметной области

 

Теперь проанализируем построенный граф семантической связности между объектами ПО.

Формальные характеристики графа

Число вершин графа ПО: N = 19.

Число ребер графа ПО: M = 27.

Число несвязанных компонент графа: k = 0.

Для определения диаметра графа [diam(G)] — максимального числа “переходов” между объектами ПО строится матрица инцидентности (связности) по полученному орграфу: M = (aij), где aij = (0, 1), 1 — если ребро выходит из соответствующей вершины vi и входит в соответствующую вершину vj, 0 — если такой связи нет.

Рассчитаем диаметр графа. Данная характеристика интересна тем, что позволяет оценить наибольший “путь”, связывающий элементы исследуемой ПО. Определить diam (G) можно используя следующую формулу, которая справедлива для ориентированного, не содержащего циклов графа:

, где .

Поскольку утверждение об ацикличности графа ПО неверно, то найдем значение диаметра графа с помощью итеративного алгоритма, на первом этапе которого необходимо перемножить матрицу инцидентности саму на себя, а на каждом следующем этапе результат предыдущего шага умножать на матрицу связности. На каждом шаге элементами полученной матрицы будут являться число путей из I в J длиной численно равной текущей степени матрицы связности.

В результате получим, что максимальным путем (без учета петель) в нашем орграфе является путь длины 5. Таких путей в ПО можно найти шесть:

№ п/п
Вершина, из которой выходит ребро
Вершина, в которую входит ребро
Количество путей
1
3
19
2
2
15
5
2
3
15
7
2

Следовательно, диаметр построенного орграфа diam G = 5, то есть максимальное число “переходов” между объектами ПО равно пяти.

Проделанный расчет позволяет ответить на следующие вопросы:

  1. Как связаны между собой объекты ПО.
  2. Какова степень детализации базы данных, которая должна хранить информацию о персоналиях (под степенью детализации будем понимать длину цепочки из отношений базы данных, каждая пара которой связана как 1:n).
  3. Насколько велико число переходов между объектами ПО в интерфейсе информационной системы.

Выделение сущностей, их атрибутов и анализ семантических связей между сущностями

Выделение сущностей и их атрибутов необходимо для разработки баз данных электронной энциклопедии. Такую структуру можно представить с помощью инфологической модели — концептуального представления объектов информационной системы. Для описания инфологической модели используется модель “сущность-связь” (entity-relation model) [Ревунков, 1992] и элементы реляционной алгебры [Мейер, 1987]. Модель “сущность-связь” является формальным представлением предметной области и может быть использована на этапе инфологического проектирования баз данных. Она позволяет моделировать объекты ПО, в которых применяются базы данных, а также взаимоотношения этих объектов. Относительная простота модели, применение естественного языка и легкость понимания позволяют использовать ее также как инструмент для общения с будущими пользователями с целью сбора информации о ПО для проектирования базы данных системы.

Основное назначение неформальной модели “сущность-связь” — семантическое описание предметной области и представление информации для обоснования выбора видов моделей и структур данных, которые в дальнейшем будут использоваться в системе.

Существует несколько подходов к построению моделей типа “сущность—связь”. Однако общим для всех этих подходов является использование трех основных конструктивных элементов для представления составляющих ПО: сущности, атрибуты и связи [Ревунков, 1992].

Сущность — это собирательное понятие, некоторая абстракция реально существующего объекта, явления или процесса, о котором необходимо хранить информацию в системе. В качестве сущностей в моделях ПО могут рассматриваться как материальные объекты (книги, люди, фотографии и т.д.), так и нематериальные (описание некоторого явления, рефераты научных статей и т.п.). В моделях типа “сущность-связь” каждая рассматриваемая конкретная сущность является узловой точкой сбора информации о представляемом объекте ПО. Для обозначения конкретных экземпляров сущностей используются специальные атрибуты, выполняющие роль идентификаторов. Это может быть один или несколько атрибутов, значения которых позволяют отличить один экземпляр сущности от другого.

Атрибут — это поименованная характеристика сущности. Атрибут принимает значения из некоторого множества значений. В модели атрибут выступает в качестве средства, с помощью которого моделируются свойства сущностей. Для того, чтобы задать атрибут в модели, необходимо присвоить ему наименование, привести смысловое описание атрибута, определить множество его допустимых значений и указать его роль, то есть указать, для чего он используется.

Связь — средство в модели, с помощью которого представляются отношения между сущностями, имеющими место в ПО.

При анализе связей между сущностями могут встречаться бинарные связи (связи между двумя сущностями), тернарные связи (между тремя сущностями) и в общем случае n-арные связи.

Наиболее часто встречаются бинарные связи. Для определения характера взаимосвязей между парами связанных элементов используются отображения и ассоциации. Ассоциация — это односторонняя связь. Отображение представляет собой совокупность ассоциаций — прямой и инверсной, то есть отображение — это двусторонняя связь.

Бинарные связи можно разделить на три основные группы:

На основе графа семантической связности можно разбить все объекты предметной области на некоторые группы, которые объединяются в сущности. Основные данные, касающиеся личности лексикографов: ФИО, годы жизни, фотография, очерк их жизни, архивные материалы и т.д. рассмотрим как единую сущность “Лексикографы”. Просмотреть по годам подробную деятельность персоналий в данной сущности невозможно, поэтому введем сущность “Нить жизни”, расписывающую всю жизнь лексикографа по периодам. Здесь указывается: начало и конец периода, где проходил период, деятельность и основные контакты указанного человека.

Учеными было написано немало методологических работ о том, в каком порядке и что надо указывать в словарях, а также многими из них оставлены труды в разделе близком к лексикографии — лексикологии. Все сведения о написанном ими логически объединяются в сущность “Библиография”. Но, помимо множества книг и статей, можно выделить цитаты, касающиеся различных разделов русского языка. Все цитаты объединяются в одну сущность “Цитаты” с указанием, если известно, из какого источника она взята.

Аналогично библиографии все данные о литературе, содержащей информацию о лексикографах, относятся к сущности “Литература”, а все отзывы других людей о лексикографах — к сущности “Отзывы”.

По каждому лексикографу имеется набор фотографий, помимо основной фотографии, относящейся к сущности “Лексикографы”. Здесь представлены фотографии людей в различные годы жизни, групповые фотографии, фотографии мест, связанных с данным человеком. К каждой фотографии прилагается текст, комментирующий ее. Эти данные объединены в сущность “Пакет фото”.

С учетом вышеуказанных комментариев получаем следующие сущности и первоначальную схему базы данных:

Лексикографы (Номер лексикографа, ФИО краткое, ФИО полное, Дата рождения, Дата смерти, Девиз, ФИО автора девиза, Основная фотография, Очерк жизни, Из архива).

Библиография (Номер работы, Название работы, Издательство, Год издания, Отрывок из работы).

Цитаты (Номер цитаты, Текст цитаты, Название источника цитаты, Когда была сказана, Комментарии к цитате).

Нить жизни (Номер периода, Очередная дата, Комментарии к периоду).

Литература (Номер работы, Название работы о лексикографе, Автор, Издательство, Год издания, Примечания).

Отзывы (Номер отзыва, ФИО человека, написавшего отзыв, О человеке написавшем отзыв, Когда написан, Текст отзыва).

Пакет фото (Номер фото, Комментарии к фотографии, Фотография).

Логическое проектирование схемы базы данных

 

Ввиду избыточности построенной пробной модели БД полученные таблицы необходимо оптимизировать.

Для построения эффективных баз данных используют математический аппарат реляционной алгебры. Опишем его основные моменты [Мейер, 1987]:

  1. Операции реляционной алгебры — это операции над множествами.
  2. Множество поименованных атрибутов, из которых состоит плоская таблица (отношение, сущность) называется схемой отношений R.
    R = (A1, A2, ..., AN).
  3. Конкретная таблица (совокупность объектов сущности) с заданной схемой отношений называется экземпляром отношения или просто отношением r.
  4. Строка любого отношения (состоящая из атрибутов сущности) называется кортежем.
  5. Если A = {A1,A2,...,AN} — множество всех атрибутов некоторой ПО и заданы схемы отношений R1,R2,...RK такие, что , тогда множество r  = {R1,R2,..., RK} называется схемой базы данных.
  6. Над множествами отношений вводятся следующие операции: объединение отношений (), разность отношений (R3 = R1 — R2), декартово произведение (), проекция на атрибуты (), селекция (), естественное соединение ().
  7. Вводится понятие функциональных зависимостей для атрибутов ПО. Говорят, что функционально определяет , то есть (X® Y), если в любом экземпляре отношений R, определенном на атрибутах A1A2...AN, не могут содержаться два кортежа, совпадающие по атрибутам X, но не совпадающие по атрибутам Y. Другими словами, совпадение значений атрибутов X автоматически влечет за собой совпадение атрибутов Y.
  8. На основании вышеизложенного, вводятся такие важные понятия как замыкание подмножества атрибутов, покрытие множеств зависимостей, нормальная форма отношений, свойство соединения без потерь, сохранение множества зависимостей и оптимальная схема базы данных.

    Из этого можно сделать вывод, что предметные реляционные базы данных (созданные с использованием аппарата реляционной алгебры) представляют собой хорошо отработанную формальную модель представления знаний, для которой существуют автоматизированные технологии поддержки концептуального и логического проектирования.

    Построение формальной модели предметной области

    Первоначальную неусовершенствованную схему БД r называют “плохой” схемой БД, которую необходимо оптимизировать. Схема БД r является “хорошей”, если она обладает следующими свойствами [Мейер, 1987]:

  9. Соединение без потерь.
  10. Сохранение зависимостей.
  11. Любая схема отношений находится в 3-ей нормальной форме.

Выпишем все множество имеющихся атрибутов (A1, A2, ..., AN). Для наглядности разобьем его на группы и каждому атрибуту поставим в соответствие некоторое наименование:

Атрибуты Наименование
Лексикографы  
Порядковый номер лексикографа A1
ФИО лексикографа краткое A2
ФИО лексикографа полное A3
Дата рождения лексикографа A4
Дата смерти лексикографа A5
Девиз A6
ФИО автора девиза краткое A7
Указатель на основную фотографию A8
Имя файла очерка жизни A9
Указатель на архивный документ A10
Библиография  
Порядковый номер труда A11
Название труда A12
Указатель на фотографию A8
Указатель на архивный документ A10
Цитаты  
Порядковый номер цитаты A13
Текст цитаты A14
Источник цитаты A15
Нить жизни  
Порядковый номер нити жизни A16
Дата события A17
Описание A18
Указатель на фотографию A8
Указатель на архивный документ A10
Литература  
Порядковый номер работы A19
Название работы A20
Указатель на фотографию A8
Указатель на архивный документ A10
ФИО автора работы краткое A21
Отзывы  
Порядковый номер отзыва A22
Текст отзыва A23
ФИО автора отзыва A24
Пакет фотографий  
Порядковый номер фотографии A8
Имя файла фотографии A25
Примечание A26
Персоналии  
Порядковый номер персоналии A27
ФИО персоналии краткое A28
ФИО персоналии полное A29
Дата рождения A30
Дата смерти A31
Указатель на фотографию A32
Информация о персоналии A33
Архив  
Порядковый номер архива A10
Имя файла архива A34
Примечание A35

Получаем множество наименованных атрибутов ПО “Отечественные лексикографы” R = (A1A2A3...A35).

Можно заметить, что некоторые группы, выделенные ранее, сильно изменились. В группах “Библиография” и “Литература” отсутствуют атрибуты: Издательство, Год издания, Примечание, вся информация записывается в Название работы. Для удобства хранения данных выделены дополнительные группы: “Архив”, “Персоналии”. Группа “Персоналии” создана для хранения данных о людях, писавших очерки, отзывы, статьи и книги о лексикографах.

Фотографии и архивные документы хранятся в отдельных папках Photo и Docum, а в таблицах будут прописываться соответствующие имена файлов.

Оптимизация формальной модели

Чтобы связать выбранные группы, укажем существующие в этой схеме отношений функциональные зависимости. Например, для любого номера лексикографа A1 существуют только одно ФИО лексикографа краткое A2, ФИО лексикографа полное A3, дата рождения A4, дата смерти A5, девиз A6, имя файла очерка жизни A9, то есть A1 функционально определяет A2A3A4A5A6A9 (A1® A2A3A4A5A6A9). По этому принципу строим все остальные функциональные зависимости.

Получаем следующее множество функциональных зависимостей F:

A1® A2A3A4A5A6A9 A19® A1A20A8A10A21
A6A7® A1 A22® A1A23A24
A11® A1A12A8A10 A8® A1A25A26
A13® A1A14A15 A27® A28A29A30A31A32A33
A16® A1A17A18A8A10 A10® A1A34A35

Воспользуемся следующим алгоритмом построения “хорошей” схемы БД:

1. Множество схем отношений r , образующих вначале схему БД, равно 0, то есть r =0.

2. Найдем Gминимальное покрытие для множества функциональных зависимостей F. Покрытие G называется минимальным, если оно обладает следующими свойствами:

Первоначально G присваиваем все множество функциональных зависимостей F: = {A1® A2A3A4A5A6A9, A6A7® A1, A11® A1A12A8A10, A13® A1A14A15,

A16® A1A17A18A8A10, A19® A1A20A8A10A21, A22® A1A23A24, A8® A1A25A26, A27® A28A29A30A31A32A33, A10® A1A34A35}

Упростим G. Для этого расщепим первую функциональную зависимость A1® A2A3A4A5A6A9 на A1® A2, A1® A3, A1® A4, A1® A5, A1® A6, A1® A9.

A1® A2 :

G — (A1® A2) = {A1® A3A4A5A6A9, A6A7® A1, A11® A1A12A8A10, A13® A1A14A15, A16® A1A17A18A8A10, A19® A1A20A8A10A21, A22® A1A23A24, A8® A1A25A26, A27® A28A29A30A31A32A33, A10® A1A34A35}

A1+ = A1A3A4A5A6A9 ¹ R Þ (A1® A2) Ë (G — (A1® A2))+ Þ G не меняется

Для всех A1® A3, A1® A4, A1® A5, A1® A6, A1® A9 — аналогично. Другие функциональные зависимости проверяются также.

В итоге получаем следующее минимальное покрытие:

= {A1® A2A3A4A5A6A9, A6A7® A1, A11® A1A12A8A10, A13® A1A14A15, A16® A1A17A18A8A10, A19® A1A20A8A10A21, A22® A1A23A24, A8® A1A25A26, A27® A28A29A30A31A32A33, A10® A1A34A35}

3. Любое V® W из G заменяем на множество VW. Полученное множество отношений обозначим как Q. Получаем следующее Q:

Q = {A1A2A3A4A5A6A9, A1A6A7, A1A11A12A8A10, A1A13A14A15, A1A16A17A18A8A10, A1A19A20A8A10A21, A1A22A23A24, A1A8A25A26, A27A28A29A30A31A32A33, A1A10A34A35}

4. Если схема отношений из всех атрибутов принадлежит Q, то добавляем эту схему отношений в r . В нашем случае A1A2A3...A35 Ë Q.

5. Добавим в r те атрибуты, которые не входят ни в одно из множеств VW в Q. В нашем случае нет атрибутов из R, не вошедших в Q.

Добавляем в r схемы отношений из Q.

r  {A1A2A3A4A5A6A9, A1A6A7, A1A11A12A8A10, A1A13A14A15, A1A16A17A18A8A10, A1A19A20A8A10A21, A1A22A23A24, A1A8A25A26, A27A28A29A30A31A32A33, A1A10A34A35}

6. Если ни одна из схем отношений, входящих в r не содержит ключ множества атрибутов ПО, то необходимо добавить в r этот ключ в качестве схемы отношений. Ключом X множества атрибутов R называются атрибуты, которые функционально определяют все атрибуты из R и для любого атрибута Y из X верно {Y® все атрибуты R} Ë F+ [Мейер, 1987].

Найдем ключ множества атрибутов R:

Первоначально X присваиваются все атрибуты из R: X = A1A2A3...A35

Упростим X.

(A1A6A7A8A10A11A13A16A19A22A27)+ = A1A2A3...A35 = R

(A6A7A8A10A11A13A16A19A22A27)+ = A1A2A3...A35 = R

(A7A8A10A11A13A16A19A22A27)+ = A1A2A3...A35 = R

(A7A10A11A13A16A19A22A27)+ = A1A2A3...A35 = R

(A7A11A13A16A19A22A27)+ = A1A2A3...A35 = R

(A7)+ ¹ A1A2A3...A35 = R

(A11)+ ¹ A1A2A3...A35 = R

(A13)+ ¹ A1A2A3...A35 = R

(A16)+ ¹ A1A2A3...A35 = R

(A19)+ ¹ A1A2A3...A35 = R

(A22)+ ¹ A1A2A3...A35 = R

(A27)+ ¹ A1A2A3...A35 = R

Получаем ключ X = A7A11A13A16A19A22A27. Проверяем, принадлежит ли ключ X какому-либо отношению: A7A11A13A16A19A22A27 Ï r Þ Полученное множество схем отношений будет:

r  = {A1A2A3A4A5A6A9, A1A6A7, A1A11A12A8A10, A1A13A14A15, A1A16A17A18A8A10, A1A19A20A8A10A21, A1A22A23A24, A1A8A25A26, A27A28A29A30A31A32A33, A1A10A34A35, A7A11A13A16A19A22A27}

Схема БД, состоящая из этих таблиц, будет “хорошей”.

Сравним полученную схему отношений r и построенный ранее граф ПО. Видно, что построенная схема БД обладает одним главным недостатком — неестественным представлением данных сложной структуры. Попытка реализовать описание ПО с помощью “хорошей” оптимизированной схемы БД привела к избыточности структур и трудностям поддержания целостности связей. Построенная оптимизированная схема БД не удобна для реализации и хранения данных. Оптимизированная схема предполагает достижение из любого элемента ПО всех остальных элементов. В данной ПО не нужна связь каждой группы элементов (сущностей) с каждой, поскольку ключевым звеном является группа “Лексикографы”, через которую осуществляется связь всех остальных групп.

В итоге в ПО “Отечественные лексикографы” выделяем следующие сущности:

1. Лексикографы (Порядковый номер лексикографа, ФИО краткое, ФИО полное, Дата рождения, Дата смерти, Девиз, ФИО автора девиза краткое, Указатель на основную фотографию, Имя файла очерка жизни, Указатель на архивный документ) — является центральной и содержит основную информацию о персоналиях и связана со всеми другими сущностями.

2. Библиография (Порядковый номер труда, Порядковый номер лексикографа, Название труда, Указатель на фотографию, Указатель на архивный документ) — содержит сведения о работах, написанных лексикографом.

3. Цитаты (Порядковый номер цитаты, Порядковый номер лексикографа, Текст цитаты, Источник цитаты) — содержит основные высказывания персоналии с указанием источника.

4. Нить жизни (Порядковый номер нити жизни, Порядковый номер лексикографа, Дата события, Описание, Указатель на фотографию, Указатель на архивный документ) — содержит информацию о лексикографах, расписанную по основным периодам их жизни.

5. Литература (Порядковый номер работы, Порядковый номер лексикографа, Название работы, Указатель на фотографию, Указатель на архивный документ, ФИО автора работы краткое) — содержит сведения о работах, написанных другими людьми о лексикографах.

6. Отзывы (Порядковый номер отзыва, Порядковый номер лексикографа, Текст отзыва, ФИО автора отзыва) — содержит отзывы различных людей о персоналиях и основные высказывания персоналии с пояснениями к ним.

7. Пакет фотографий (Порядковый номер фотографии, Порядковый номер лексикографа, Имя файла фотографии, Комментарии к фотографии) — содержит графический материал (фотографии, автографы, листы работ и т.п.) по каждому лексикографу.

8. Персоналии(Порядковый номер персоналии, ФИО краткое, ФИО полное, Дата рождения, Дата смерти, Указатель на фотографию, Информация о персоналии) — содержит основную информацию о персоналиях, писавших работы или отзывы о лексикографах.

9. Архив (Порядковый номер архива, Порядковый номер лексикографа, Имя файла архива, Примечание) — содержит архивную информацию о лексикографах.

Концептуальная схема БД предметной области

Существует несколько способов представления концептуальной схемы базы данных: в виде нотации Баркера, нотации Чена, IDEF-нотации. Опишем основные элементы нотации Баркера:

Сущность (Entity) — представляется прямоугольником. Внутри нее указывается имя сущности и имена атрибутов. Ключевые элементы помечаются #.

Связь (Relationship). Связь является бинарной, то есть представляет собой линию, соединяющую две сущности А и В. Для любой связи должны быть определены имена связи, как со стороны сущности А, так и стороны В. Если каждый экземпляр сущности А должен быть связан с каким-либо экземпляром сущности В, то примыкающая к прямоугольнику А половина линии должна быть сплошной, иначе — пунктирной. Если связь множественная, то линии присоединяются к прямоугольнику сущности в трех точках.

Используя элементы нотации Баркера, построим концептуальную схему для базы данных ПО (рис.3).

Рис. 3. Концептуальная схема ПО в нотации Баркера

Проектирование интерфейса взаимодействия
субъекта с системой

В настоящее время распространены следующие модели представления знаний:

Тематические системы управления базами данных (СУБД) представляют собой системы поддержки какой-либо деятельности. Структура этих систем может сильно различаться в зависимости от целей, на которые они сориентированы. Можно выделить реляционные базы данных, объектно-ориентированные базы данных, сетевые модели и т.п. [Филиппович, 1998]. Наибольшее распространение получили реляционные СУБД.

Наиболее важные критерии реляционных структур для систем организации знаний:

Основное назначение РСУБД — хранение декларативного знания, описывающего структуру данных о внешнем мире. Процедурное же знание описывает механизмы, способные выполнять некоторые операции (логический вывод, поиск по аналогии, концептуальный анализ и т.д.), используя знания в качестве базы данных [Шемакин, 1985]. Декларативное знание естественным образом вписывается в концепцию реляционной структуры.

Гипертекст можно определить как технологию работы с текстовыми данными, позволяющую устанавливать ассоциативные связи (гиперсвязи) между отдельными терминами, фрагментами, статьями в текстовых массивах и благодаря этому допускающую не только последовательную, линейную работу с текстом, как при обычном чтении, но и произвольный доступ, ассоциативный просмотр в соответствии с установленной структурой связи [Шемакин, 1995]. Текст получает дополнительные измерения, будучи организованным и от начала к концу, и по тематическим линиям, по индексам, библиографическим указателям. Информационные гипертехнологии обеспечивают структурирование информации и произвольный доступ к ее элементам с помощью установления гиперсвязей [Шемакин, 1995].

Особенности гипертекстовых систем:

Основной недостаток гипертекстовых систем: в них отсутствуют автоматизированные механизмы формирования структуры знаний — выделение сущностей и установления связей между ними.

В настоящее время в гипертекстовых системах эффективно применяются мультимедийные технологии [Шемакин, 1995]. Правильнее даже говорить не о гипертекстовых, а о гипермедийных системах и технологиях. “Мультимедиа” (multimedia) — это интерактивные системы, обеспечивающие работу с неподвижными изображениями и движущимся видео, анимированной компьютерной графикой и текстом, речью и высококачественным звуком. Использование мультимедиа дает возможность гипертекстовым (гипермедийным) системам работать не только с декларативным знанием, но и с процедурным.

Обоснование выбранной модели представления

Основная проблема в проектировании систем подобного вида — проблема разработки структуры хранения информации в системе. К системе “Отечественные лексикографы” были предъявлены следующие требования:

  1. Хранение текстовой, числовой и графической информации по отечественным лексикографам.
  2. Быстрый поиск, выдача и просмотр информации.
  3. Возможность сортировки.

Этим требованиям удовлетворяет структура хранения данных в виде БД. Одним из преимуществ такой структуры является возможность совместного хранения различных форм данных и наличие взаимосвязей между ними. В этой системе существует возможность получения выборки (списка) персоналий, удовлетворяющих условиям, которые пользователь может задать сам. Кроме этого, пользователь имеет возможность выполнить пересортировку списка персоналий по алфавиту или по годам жизни.

Гипертекстовая технология позволяет легко осуществлять доступ к элементам баз данных с помощью установленных гиперсвязей.

Специфика диалога в предметной БД

Интерфейс в данной системе комбинированный: за основу взят sdi-интерфейс и в него внедрены элементы гипертекста. В системе имеется главное окно с размещенной в ней основной информацией, из него возможны переходы в другие окна с помощью расположенных в нем гипертекстовых ссылок, которые по своей структуре похожи на кнопки вызова окон. Количество таких переходов не бесконечно, а ограничено количеством окон (в данной версии системы их 12). В системе гипертекстовыми ссылками могут быть фамилии персоналий, наименования разделов, указания для перехода к другим записям, фотографиям и документам. В общем случае, если на экране имеется подчеркнутый текст — это гиперссылка. В главном окне есть следующие варианты гиперссылок: очерк жизни, из архива, нить жизни, заветные мысли, отзывы, фотоархив, библиография, литература. Все окна стандартные, в них только располагается разная информация — для каждой персоналии своя.

Заключение

Одним из преимуществ электронной энциклопедии перед книжным изданием является возможность поиска информации по каким-либо критериям. В отличие от книжного издания, система содержит большое количество фотографий и иллюстраций, относящихся к различным периодам жизни лексикографов, встроенный краткий энциклопедический словарь по персоналиям, позволяющий в любой момент получить справку по автору высказывания или книги. А встроенная гипертекстовая технология дает возможность легко перемещаться по базе данных и получать доступ к интересующей информации.

Предполагается запись данной электронной энциклопедии “Отечественные лексикографы XVIII–XX вв.” на CD-ROM и распространение вместе с полиграфической серией книг.