В рамках данной статьи предлагается рассмотреть особенности построения предметных систем управления базами данных (СУБД) на примере электронной энциклопедии “Отечественные лексикографы XVIII–XX вв.” Система содержит материалы по выдающимся ученым прошлого и современности: Е.Р.Дашковой, А.С.Шишкове, В.И.Дале, Д.Н.Ушакове, С.И.Ожегове, Н.М.Шанском, О.Н.Трубачеве и другим, — они стоят во главе наиболее значимых лексикографических изданий и посвятили свою жизнь созданию словарей и энциклопедий.
В энциклопедии имеются биографические данные об отечественных лексикографах — людях, изучающих теорию и практику составления словарей, дается их полный жизненный и творческий путь, перечисляются работы в области составления словарей, содержатся оценки трудов самими авторами и людьми, знавшими их. Основная задача энциклопедии — дать наиболее полно биографические и библиографические данные относительно каждой персоналии.
Данная тематика для электронной энциклопедии выбрана не случайно. В настоящее время выпущены две книги серии “Отечественная лексикография”: отечественные лексикографы XVIII–XIX вв. (формат 60´ 90 1/16, 184 с.) и отечественные лексикографы XX в. (формат 60´ 90 1/16, 288 с.) [Богатова, 1998; Богатова, 1999]. Но, как известно, книгу невозможно расширять до бесконечности: ее объем ограничен количеством страниц, и все имеющиеся данные по персоналии не уместить на 20–30 страницах, выделенных на нее. Поэтому и было решено сделать более полную электронную версию хрестоматии, которая не имеет жестких ограничений по объему представляемых материалов.
Основным принципом создаваемой системы является стремление отразить в ней всю имеющуюся информацию. Отсюда и главная сложность — неравномерность распределения информации, ее разнородность. По одним персоналиям имеется только один очерк с приложенной к нему фотографией, а по другим — несколько текстов, воспоминания, отзывы и цитаты, различные архивные материалы и несколько десятков старых архивных фотографий. Это приводит к трудностям структурирования имеющихся данных.
В результате анализа предметной области (ПО) по книгам “Отечественные лексикографы” (рис. 1), сравнения электронных энциклопедий фирмы “Кирилл и Мефодий”, электронного “Словаря Брокгауза и Ефрона” фирмы “Колибри” были определены основные пункты рассмотрения персоналий:
О каждом лексикографе, помимо биографических сведений, даются библиографические. Здесь представлены:
Кроме информации, присутствующей в книге, электронная энциклопедия будет иметь альбом фотографий с комментариями.
Проведя анализ предметной области и выявив ее основные элементы, построим ее семантическую модель. Семантическая модель ПО есть ее смысловое содержание (знание о ПО), представленное с помощью некоторого формального аппарата и предназначенное для обеспечения какого-либо этапа процедуры решения задач [Шемакин, 1995]. Введение семантических моделей позволяет сформировать базы знаний. Представим ПО “Отечественные лексикографы” в виде ориентированного семантически связанного графа.
Определение геометрического графа:
Пусть на плоскости или пространстве дан конечный набор точек и некоторые из них соединены между собой дугами, причем две дуги не имеют общих точек, либо их точки являются концевыми, тогда это образование называется геометрическим графом G [Кук, 1986]. Точки — вершинами графа V, дуги — ребрами графа R.
Граф G = (V, R).
Дуги, соединяющие точку с ней самой, называются петлями.
Основными числовыми характеристиками графа являются [Кук, 1986]:
Основное свойство: ;
Для построения ориентированного графа определяем основные элементы ПО. Такими будем считать:
Все эти элементы образуют совокупность вершин графа V, а связи между элементами — совокупность ребер R. Связи между элементами строятся по принципу родо-видовых отношений, относящихся к экстралингвистическим отношениям. Связь идет от основного элемента, представляющего заданный род, к частному элементу, относящемуся к определенному виду. Например, ФИО персоналии определяет годы жизни, очерк жизни, фотографии, поэтому необходимо связать их дугами, начинающимися в вершине “ФИО персоналии” и заканчивающимися в вершинах “Годы жизни”, “Очерк жизни”, “Фотографии”. Таким образом, под связью понимаются возможные переходы между объектами ПО.
Полученный граф представлен на рис. 2.
Теперь проанализируем построенный граф семантической связности между объектами ПО.
Число вершин графа ПО: N = 19.
Число ребер графа ПО: M = 27.
Число несвязанных компонент графа: k = 0.
Для определения диаметра графа [diam(G)] — максимального числа “переходов” между объектами ПО строится матрица инцидентности (связности) по полученному орграфу: M = (aij), где aij = (0, 1), 1 — если ребро выходит из соответствующей вершины vi и входит в соответствующую вершину vj, 0 — если такой связи нет.
Рассчитаем диаметр графа. Данная характеристика интересна тем, что позволяет оценить наибольший “путь”, связывающий элементы исследуемой ПО. Определить diam (G) можно используя следующую формулу, которая справедлива для ориентированного, не содержащего циклов графа:
,
где
.
Поскольку утверждение об ацикличности графа ПО неверно, то найдем значение диаметра графа с помощью итеративного алгоритма, на первом этапе которого необходимо перемножить матрицу инцидентности саму на себя, а на каждом следующем этапе результат предыдущего шага умножать на матрицу связности. На каждом шаге элементами полученной матрицы будут являться число путей из I в J длиной численно равной текущей степени матрицы связности.
В результате получим, что максимальным путем (без учета петель) в нашем орграфе является путь длины 5. Таких путей в ПО можно найти шесть:
№ п/п
|
Вершина, из которой
выходит ребро
|
Вершина, в которую
входит ребро
|
Количество путей
|
1
|
3
|
19
|
2
|
2
|
15
|
5
|
2
|
3
|
15
|
7
|
2
|
Следовательно, диаметр построенного орграфа diam G = 5, то есть максимальное число “переходов” между объектами ПО равно пяти.
Проделанный расчет позволяет ответить на следующие вопросы:
Выделение сущностей, их атрибутов и анализ семантических связей между сущностями
Выделение сущностей и их атрибутов необходимо для разработки баз данных электронной энциклопедии. Такую структуру можно представить с помощью инфологической модели — концептуального представления объектов информационной системы. Для описания инфологической модели используется модель “сущность-связь” (entity-relation model) [Ревунков, 1992] и элементы реляционной алгебры [Мейер, 1987]. Модель “сущность-связь” является формальным представлением предметной области и может быть использована на этапе инфологического проектирования баз данных. Она позволяет моделировать объекты ПО, в которых применяются базы данных, а также взаимоотношения этих объектов. Относительная простота модели, применение естественного языка и легкость понимания позволяют использовать ее также как инструмент для общения с будущими пользователями с целью сбора информации о ПО для проектирования базы данных системы.
Основное назначение неформальной модели “сущность-связь” — семантическое описание предметной области и представление информации для обоснования выбора видов моделей и структур данных, которые в дальнейшем будут использоваться в системе.
Существует несколько подходов к построению моделей типа “сущность—связь”. Однако общим для всех этих подходов является использование трех основных конструктивных элементов для представления составляющих ПО: сущности, атрибуты и связи [Ревунков, 1992].
Сущность — это собирательное понятие, некоторая абстракция реально существующего объекта, явления или процесса, о котором необходимо хранить информацию в системе. В качестве сущностей в моделях ПО могут рассматриваться как материальные объекты (книги, люди, фотографии и т.д.), так и нематериальные (описание некоторого явления, рефераты научных статей и т.п.). В моделях типа “сущность-связь” каждая рассматриваемая конкретная сущность является узловой точкой сбора информации о представляемом объекте ПО. Для обозначения конкретных экземпляров сущностей используются специальные атрибуты, выполняющие роль идентификаторов. Это может быть один или несколько атрибутов, значения которых позволяют отличить один экземпляр сущности от другого.
Атрибут — это поименованная характеристика сущности. Атрибут принимает значения из некоторого множества значений. В модели атрибут выступает в качестве средства, с помощью которого моделируются свойства сущностей. Для того, чтобы задать атрибут в модели, необходимо присвоить ему наименование, привести смысловое описание атрибута, определить множество его допустимых значений и указать его роль, то есть указать, для чего он используется.
Связь — средство в модели, с помощью которого представляются отношения между сущностями, имеющими место в ПО.
При анализе связей между сущностями могут встречаться бинарные связи (связи между двумя сущностями), тернарные связи (между тремя сущностями) и в общем случае n-арные связи.
Наиболее часто встречаются бинарные связи. Для определения характера взаимосвязей между парами связанных элементов используются отображения и ассоциации. Ассоциация — это односторонняя связь. Отображение представляет собой совокупность ассоциаций — прямой и инверсной, то есть отображение — это двусторонняя связь.
Бинарные связи можно разделить на три основные группы:
На основе графа семантической связности можно разбить все объекты предметной области на некоторые группы, которые объединяются в сущности. Основные данные, касающиеся личности лексикографов: ФИО, годы жизни, фотография, очерк их жизни, архивные материалы и т.д. рассмотрим как единую сущность “Лексикографы”. Просмотреть по годам подробную деятельность персоналий в данной сущности невозможно, поэтому введем сущность “Нить жизни”, расписывающую всю жизнь лексикографа по периодам. Здесь указывается: начало и конец периода, где проходил период, деятельность и основные контакты указанного человека.
Учеными было написано немало методологических работ о том, в каком порядке и что надо указывать в словарях, а также многими из них оставлены труды в разделе близком к лексикографии — лексикологии. Все сведения о написанном ими логически объединяются в сущность “Библиография”. Но, помимо множества книг и статей, можно выделить цитаты, касающиеся различных разделов русского языка. Все цитаты объединяются в одну сущность “Цитаты” с указанием, если известно, из какого источника она взята.
Аналогично библиографии все данные о литературе, содержащей информацию о лексикографах, относятся к сущности “Литература”, а все отзывы других людей о лексикографах — к сущности “Отзывы”.
По каждому лексикографу имеется набор фотографий, помимо основной фотографии, относящейся к сущности “Лексикографы”. Здесь представлены фотографии людей в различные годы жизни, групповые фотографии, фотографии мест, связанных с данным человеком. К каждой фотографии прилагается текст, комментирующий ее. Эти данные объединены в сущность “Пакет фото”.
С учетом вышеуказанных комментариев получаем следующие сущности и первоначальную схему базы данных:
Лексикографы (Номер лексикографа, ФИО краткое, ФИО полное, Дата рождения, Дата смерти, Девиз, ФИО автора девиза, Основная фотография, Очерк жизни, Из архива).
Библиография (Номер работы, Название работы, Издательство, Год издания, Отрывок из работы).
Цитаты (Номер цитаты, Текст цитаты, Название источника цитаты, Когда была сказана, Комментарии к цитате).
Нить жизни (Номер периода, Очередная дата, Комментарии к периоду).
Литература (Номер работы, Название работы о лексикографе, Автор, Издательство, Год издания, Примечания).
Отзывы (Номер отзыва, ФИО человека, написавшего отзыв, О человеке написавшем отзыв, Когда написан, Текст отзыва).
Пакет фото (Номер фото, Комментарии к фотографии, Фотография).
Логическое проектирование схемы базы данных
Ввиду избыточности построенной пробной модели БД полученные таблицы необходимо оптимизировать.
Для построения эффективных баз данных используют математический аппарат реляционной алгебры. Опишем его основные моменты [Мейер, 1987]:
На основании вышеизложенного, вводятся такие важные понятия как замыкание подмножества атрибутов, покрытие множеств зависимостей, нормальная форма отношений, свойство соединения без потерь, сохранение множества зависимостей и оптимальная схема базы данных.
Из этого можно сделать вывод, что предметные реляционные базы данных (созданные с использованием аппарата реляционной алгебры) представляют собой хорошо отработанную формальную модель представления знаний, для которой существуют автоматизированные технологии поддержки концептуального и логического проектирования.
Построение формальной модели предметной области
Первоначальную неусовершенствованную схему БД r называют “плохой” схемой БД, которую необходимо оптимизировать. Схема БД r является “хорошей”, если она обладает следующими свойствами [Мейер, 1987]:
Выпишем все множество имеющихся атрибутов (A1, A2, ..., AN). Для наглядности разобьем его на группы и каждому атрибуту поставим в соответствие некоторое наименование:
Атрибуты | Наименование |
Лексикографы | |
Порядковый номер лексикографа | A1 |
ФИО лексикографа краткое | A2 |
ФИО лексикографа полное | A3 |
Дата рождения лексикографа | A4 |
Дата смерти лексикографа | A5 |
Девиз | A6 |
ФИО автора девиза краткое | A7 |
Указатель на основную фотографию | A8 |
Имя файла очерка жизни | A9 |
Указатель на архивный документ | A10 |
Библиография | |
Порядковый номер труда | A11 |
Название труда | A12 |
Указатель на фотографию | A8 |
Указатель на архивный документ | A10 |
Цитаты | |
Порядковый номер цитаты | A13 |
Текст цитаты | A14 |
Источник цитаты | A15 |
Нить жизни | |
Порядковый номер нити жизни | A16 |
Дата события | A17 |
Описание | A18 |
Указатель на фотографию | A8 |
Указатель на архивный документ | A10 |
Литература | |
Порядковый номер работы | A19 |
Название работы | A20 |
Указатель на фотографию | A8 |
Указатель на архивный документ | A10 |
ФИО автора работы краткое | A21 |
Отзывы | |
Порядковый номер отзыва | A22 |
Текст отзыва | A23 |
ФИО автора отзыва | A24 |
Пакет фотографий | |
Порядковый номер фотографии | A8 |
Имя файла фотографии | A25 |
Примечание | A26 |
Персоналии | |
Порядковый номер персоналии | A27 |
ФИО персоналии краткое | A28 |
ФИО персоналии полное | A29 |
Дата рождения | A30 |
Дата смерти | A31 |
Указатель на фотографию | A32 |
Информация о персоналии | A33 |
Архив | |
Порядковый номер архива | A10 |
Имя файла архива | A34 |
Примечание | A35 |
Получаем множество наименованных атрибутов ПО “Отечественные лексикографы” R = (A1A2A3...A35).
Можно заметить, что некоторые группы, выделенные ранее, сильно изменились. В группах “Библиография” и “Литература” отсутствуют атрибуты: Издательство, Год издания, Примечание, вся информация записывается в Название работы. Для удобства хранения данных выделены дополнительные группы: “Архив”, “Персоналии”. Группа “Персоналии” создана для хранения данных о людях, писавших очерки, отзывы, статьи и книги о лексикографах.
Фотографии и архивные документы хранятся в отдельных папках Photo и Docum, а в таблицах будут прописываться соответствующие имена файлов.
Чтобы связать выбранные группы, укажем существующие в этой схеме отношений функциональные зависимости. Например, для любого номера лексикографа A1 существуют только одно ФИО лексикографа краткое A2, ФИО лексикографа полное A3, дата рождения A4, дата смерти A5, девиз A6, имя файла очерка жизни A9, то есть A1 функционально определяет A2A3A4A5A6A9 (A1® A2A3A4A5A6A9). По этому принципу строим все остальные функциональные зависимости.
Получаем следующее множество функциональных зависимостей F:
A1® A2A3A4A5A6A9 | A19® A1A20A8A10A21 |
A6A7® A1 | A22® A1A23A24 |
A11® A1A12A8A10 | A8® A1A25A26 |
A13® A1A14A15 | A27® A28A29A30A31A32A33 |
A16® A1A17A18A8A10 | A10® A1A34A35 |
Воспользуемся следующим алгоритмом построения “хорошей” схемы БД:
1. Множество схем отношений r , образующих вначале схему БД, равно 0, то есть r =0.
2. Найдем G — минимальное покрытие для множества функциональных зависимостей F. Покрытие G называется минимальным, если оно обладает следующими свойствами:
Первоначально G присваиваем все множество функциональных зависимостей F: G = {A1® A2A3A4A5A6A9, A6A7® A1, A11® A1A12A8A10, A13® A1A14A15,
A16® A1A17A18A8A10, A19® A1A20A8A10A21, A22® A1A23A24, A8® A1A25A26, A27® A28A29A30A31A32A33, A10® A1A34A35}
Упростим G. Для этого расщепим первую функциональную зависимость A1® A2A3A4A5A6A9 на A1® A2, A1® A3, A1® A4, A1® A5, A1® A6, A1® A9.
A1® A2 :
G — (A1® A2) = {A1® A3A4A5A6A9, A6A7® A1, A11® A1A12A8A10, A13® A1A14A15, A16® A1A17A18A8A10, A19® A1A20A8A10A21, A22® A1A23A24, A8® A1A25A26, A27® A28A29A30A31A32A33, A10® A1A34A35}
A1+ = A1A3A4A5A6A9 ¹ R Þ (A1® A2) Ë (G — (A1® A2))+ Þ G не меняется
Для всех A1® A3, A1® A4, A1® A5, A1® A6, A1® A9 — аналогично. Другие функциональные зависимости проверяются также.
В итоге получаем следующее минимальное покрытие:
G = {A1® A2A3A4A5A6A9, A6A7® A1, A11® A1A12A8A10, A13® A1A14A15, A16® A1A17A18A8A10, A19® A1A20A8A10A21, A22® A1A23A24, A8® A1A25A26, A27® A28A29A30A31A32A33, A10® A1A34A35}
3. Любое V® W из G заменяем на множество VW. Полученное множество отношений обозначим как Q. Получаем следующее Q:
Q = {A1A2A3A4A5A6A9, A1A6A7, A1A11A12A8A10, A1A13A14A15, A1A16A17A18A8A10, A1A19A20A8A10A21, A1A22A23A24, A1A8A25A26, A27A28A29A30A31A32A33, A1A10A34A35}
4. Если схема отношений из всех атрибутов принадлежит Q, то добавляем эту схему отношений в r . В нашем случае A1A2A3...A35 Ë Q.
5. Добавим в r те атрибуты, которые не входят ни в одно из множеств VW в Q. В нашем случае нет атрибутов из R, не вошедших в Q.
Добавляем в r схемы отношений из Q.
r = {A1A2A3A4A5A6A9, A1A6A7, A1A11A12A8A10, A1A13A14A15, A1A16A17A18A8A10, A1A19A20A8A10A21, A1A22A23A24, A1A8A25A26, A27A28A29A30A31A32A33, A1A10A34A35}
6. Если ни одна из схем отношений, входящих в r не содержит ключ множества атрибутов ПО, то необходимо добавить в r этот ключ в качестве схемы отношений. Ключом X множества атрибутов R называются атрибуты, которые функционально определяют все атрибуты из R и для любого атрибута Y из X верно {Y® все атрибуты R} Ë F+ [Мейер, 1987].
Найдем ключ множества атрибутов R:
Первоначально X присваиваются все атрибуты из R: X = A1A2A3...A35
Упростим X.
(A1A6A7A8A10A11A13A16A19A22A27)+ = A1A2A3...A35 = R
(A6A7A8A10A11A13A16A19A22A27)+ = A1A2A3...A35 = R
(A7A8A10A11A13A16A19A22A27)+ = A1A2A3...A35 = R
(A7A10A11A13A16A19A22A27)+ = A1A2A3...A35 = R
(A7A11A13A16A19A22A27)+ = A1A2A3...A35 = R
(A7)+ ¹ A1A2A3...A35 = R
(A11)+ ¹ A1A2A3...A35 = R
(A13)+ ¹ A1A2A3...A35 = R
(A16)+ ¹ A1A2A3...A35 = R
(A19)+ ¹ A1A2A3...A35 = R
(A22)+ ¹ A1A2A3...A35 = R
(A27)+ ¹ A1A2A3...A35 = R
Получаем ключ X = A7A11A13A16A19A22A27. Проверяем, принадлежит ли ключ X какому-либо отношению: A7A11A13A16A19A22A27 Ï r Þ Полученное множество схем отношений будет:
r = {A1A2A3A4A5A6A9, A1A6A7, A1A11A12A8A10, A1A13A14A15, A1A16A17A18A8A10, A1A19A20A8A10A21, A1A22A23A24, A1A8A25A26, A27A28A29A30A31A32A33, A1A10A34A35, A7A11A13A16A19A22A27}
Схема БД, состоящая из этих таблиц, будет “хорошей”.
Сравним полученную схему отношений r и построенный ранее граф ПО. Видно, что построенная схема БД обладает одним главным недостатком — неестественным представлением данных сложной структуры. Попытка реализовать описание ПО с помощью “хорошей” оптимизированной схемы БД привела к избыточности структур и трудностям поддержания целостности связей. Построенная оптимизированная схема БД не удобна для реализации и хранения данных. Оптимизированная схема предполагает достижение из любого элемента ПО всех остальных элементов. В данной ПО не нужна связь каждой группы элементов (сущностей) с каждой, поскольку ключевым звеном является группа “Лексикографы”, через которую осуществляется связь всех остальных групп.
В итоге в ПО “Отечественные лексикографы” выделяем следующие сущности:
1. Лексикографы (Порядковый номер лексикографа, ФИО краткое, ФИО полное, Дата рождения, Дата смерти, Девиз, ФИО автора девиза краткое, Указатель на основную фотографию, Имя файла очерка жизни, Указатель на архивный документ) — является центральной и содержит основную информацию о персоналиях и связана со всеми другими сущностями.
2. Библиография (Порядковый номер труда, Порядковый номер лексикографа, Название труда, Указатель на фотографию, Указатель на архивный документ) — содержит сведения о работах, написанных лексикографом.
3. Цитаты (Порядковый номер цитаты, Порядковый номер лексикографа, Текст цитаты, Источник цитаты) — содержит основные высказывания персоналии с указанием источника.
4. Нить жизни (Порядковый номер нити жизни, Порядковый номер лексикографа, Дата события, Описание, Указатель на фотографию, Указатель на архивный документ) — содержит информацию о лексикографах, расписанную по основным периодам их жизни.
5. Литература (Порядковый номер работы, Порядковый номер лексикографа, Название работы, Указатель на фотографию, Указатель на архивный документ, ФИО автора работы краткое) — содержит сведения о работах, написанных другими людьми о лексикографах.
6. Отзывы (Порядковый номер отзыва, Порядковый номер лексикографа, Текст отзыва, ФИО автора отзыва) — содержит отзывы различных людей о персоналиях и основные высказывания персоналии с пояснениями к ним.
7. Пакет фотографий (Порядковый номер фотографии, Порядковый номер лексикографа, Имя файла фотографии, Комментарии к фотографии) — содержит графический материал (фотографии, автографы, листы работ и т.п.) по каждому лексикографу.
8. Персоналии(Порядковый номер персоналии, ФИО краткое, ФИО полное, Дата рождения, Дата смерти, Указатель на фотографию, Информация о персоналии) — содержит основную информацию о персоналиях, писавших работы или отзывы о лексикографах.
9. Архив (Порядковый номер архива, Порядковый номер лексикографа, Имя файла архива, Примечание) — содержит архивную информацию о лексикографах.
Существует несколько способов представления концептуальной схемы базы данных: в виде нотации Баркера, нотации Чена, IDEF-нотации. Опишем основные элементы нотации Баркера:
Сущность (Entity) — представляется прямоугольником. Внутри нее указывается имя сущности и имена атрибутов. Ключевые элементы помечаются #.
Связь (Relationship). Связь является бинарной, то есть представляет собой линию, соединяющую две сущности А и В. Для любой связи должны быть определены имена связи, как со стороны сущности А, так и стороны В. Если каждый экземпляр сущности А должен быть связан с каким-либо экземпляром сущности В, то примыкающая к прямоугольнику А половина линии должна быть сплошной, иначе — пунктирной. Если связь множественная, то линии присоединяются к прямоугольнику сущности в трех точках.
Используя элементы нотации Баркера, построим концептуальную схему для базы данных ПО (рис.3).
В настоящее время распространены следующие модели представления знаний:
Тематические системы управления базами данных (СУБД) представляют собой системы поддержки какой-либо деятельности. Структура этих систем может сильно различаться в зависимости от целей, на которые они сориентированы. Можно выделить реляционные базы данных, объектно-ориентированные базы данных, сетевые модели и т.п. [Филиппович, 1998]. Наибольшее распространение получили реляционные СУБД.
Наиболее важные критерии реляционных структур для систем организации знаний:
Основное назначение РСУБД — хранение декларативного знания, описывающего структуру данных о внешнем мире. Процедурное же знание описывает механизмы, способные выполнять некоторые операции (логический вывод, поиск по аналогии, концептуальный анализ и т.д.), используя знания в качестве базы данных [Шемакин, 1985]. Декларативное знание естественным образом вписывается в концепцию реляционной структуры.
Гипертекст можно определить как технологию работы с текстовыми данными, позволяющую устанавливать ассоциативные связи (гиперсвязи) между отдельными терминами, фрагментами, статьями в текстовых массивах и благодаря этому допускающую не только последовательную, линейную работу с текстом, как при обычном чтении, но и произвольный доступ, ассоциативный просмотр в соответствии с установленной структурой связи [Шемакин, 1995]. Текст получает дополнительные измерения, будучи организованным и от начала к концу, и по тематическим линиям, по индексам, библиографическим указателям. Информационные гипертехнологии обеспечивают структурирование информации и произвольный доступ к ее элементам с помощью установления гиперсвязей [Шемакин, 1995].
Особенности гипертекстовых систем:
Основной недостаток гипертекстовых систем: в них отсутствуют автоматизированные механизмы формирования структуры знаний — выделение сущностей и установления связей между ними.
В настоящее время в гипертекстовых системах эффективно применяются мультимедийные технологии [Шемакин, 1995]. Правильнее даже говорить не о гипертекстовых, а о гипермедийных системах и технологиях. “Мультимедиа” (multimedia) — это интерактивные системы, обеспечивающие работу с неподвижными изображениями и движущимся видео, анимированной компьютерной графикой и текстом, речью и высококачественным звуком. Использование мультимедиа дает возможность гипертекстовым (гипермедийным) системам работать не только с декларативным знанием, но и с процедурным.
Основная проблема в проектировании систем подобного вида — проблема разработки структуры хранения информации в системе. К системе “Отечественные лексикографы” были предъявлены следующие требования:
Этим требованиям удовлетворяет структура хранения данных в виде БД. Одним из преимуществ такой структуры является возможность совместного хранения различных форм данных и наличие взаимосвязей между ними. В этой системе существует возможность получения выборки (списка) персоналий, удовлетворяющих условиям, которые пользователь может задать сам. Кроме этого, пользователь имеет возможность выполнить пересортировку списка персоналий по алфавиту или по годам жизни.
Гипертекстовая технология позволяет легко осуществлять доступ к элементам баз данных с помощью установленных гиперсвязей.
Интерфейс в данной системе комбинированный: за основу взят sdi-интерфейс и в него внедрены элементы гипертекста. В системе имеется главное окно с размещенной в ней основной информацией, из него возможны переходы в другие окна с помощью расположенных в нем гипертекстовых ссылок, которые по своей структуре похожи на кнопки вызова окон. Количество таких переходов не бесконечно, а ограничено количеством окон (в данной версии системы их 12). В системе гипертекстовыми ссылками могут быть фамилии персоналий, наименования разделов, указания для перехода к другим записям, фотографиям и документам. В общем случае, если на экране имеется подчеркнутый текст — это гиперссылка. В главном окне есть следующие варианты гиперссылок: очерк жизни, из архива, нить жизни, заветные мысли, отзывы, фотоархив, библиография, литература. Все окна стандартные, в них только располагается разная информация — для каждой персоналии своя.
Одним из преимуществ электронной энциклопедии перед книжным изданием является возможность поиска информации по каким-либо критериям. В отличие от книжного издания, система содержит большое количество фотографий и иллюстраций, относящихся к различным периодам жизни лексикографов, встроенный краткий энциклопедический словарь по персоналиям, позволяющий в любой момент получить справку по автору высказывания или книги. А встроенная гипертекстовая технология дает возможность легко перемещаться по базе данных и получать доступ к интересующей информации.
Предполагается запись данной электронной энциклопедии “Отечественные лексикографы XVIII–XX вв.” на CD-ROM и распространение вместе с полиграфической серией книг.