статьи и тезисы
 

Электронная версия Словаря Академии Российской 1789-1794

Одной из важных проблем современности является доступность библиотечных фондов для потенциальных читателей. Особенно это касается хранимых в них редких и старых книг, а также различных печатных и рукописных материалов, сегодня являющихся памятниками литературы и письменности, предметом и источником научных исследований. В этом случае решением проблемы доступности является введение источников в научный оборот, исходным пунктом которого является их копирование. Особенности современных (компьютерных) издательских технологий, малые тиражи научной литературы, корпоративные интересы носителей научного знания (книговедов, филологов, историков и др.) сближают процессы копирования источников и их переиздания. Современная доступная копия какого-либо источника — это его печатное и электронное научное переиздание.

Одним из таких источников является Словарь Академии Российской 1789-1794 гг. (САР). Это первый толковый словарь русского языка. Он был создан 200 лет назад. В 2000 году Московским гуманитарным институтом им. Е.Р.Дашковой был предпринят проект его переиздания. В настоящее время вышло уже 5 томов печатного переиздания тиражом 600–1000 экземпляров. Это переиздание факсимильного типа, максимально возможно повторяющее оригинал. Его наборная форма послужила основой для создания электронной версии САР. Для реализации проекта была разработана специальная информационная технология (ИТ) переиздания.

Наиболее трудоемким этапом ИТ переиздания является ввод и корректура текста. С целью уменьшения временных затрат на корректуру текста словаря и увеличение ее эффективности были проведены исследования алгоритмов деятельности корректоров, частотных характеристик словарного текста и количества ошибок, возникающих в процессе его повторного ввода и вычитки.

Традиционно корректор осуществляет корректуру страницы по следующему алгоритму: он читает и сравнивает каждое слово с оригиналом, при обнаружении ошибки он исправляет ее. Общее время, затрачиваемое на корректуру одной страницы, определяется временем, затрачиваемым на ту или иную деятельность, и количеством слов в корректируемом тексте.

Опираясь на наблюдения, была предложена автоматизированная технология корректуры, которая подразумевает использование так называемого словаря спеллера. В этом случае корректор просматривает и сравнивает не все слова, а только те, которые не входят в словарь спеллера – неизвестные, новые. Каждое новое слово он вносит в словарь спеллера.

Частотный анализ текста страниц словаря показывает, что с каждой последующей корректируемой страницей количество уже встретившихся раннее слов постоянно увеличивается. Если в словарь спеллера вносить каждое «правильное» (исправленное) слово, то при использовании автоматизированной технологии корректуры по мере заполнения словаря спеллера количество слов проверяемых корректором будет уменьшаться. Для количественной оценки эффективности автоматизированной технологии корректуры была построена ее формальная модель и проведены временные расчеты.

По результатам исследования 1-го тома получено, что количество слов сравниваемых корректором уменьшается по мере пополнения словаря спеллера, и на последней странице снижается до ~20% общего объема.

Эффективность автоматизированной технологии корректуры зависит от соотношения времени сравнения слова и времени исправления ошибки. В случае их равенства (коэффициент K=1) суммарный выигрыш времени корректуры может достигнуть 62%, а при К=10 он равен 43%.

Одним из параметров, влияющих на корректуру, является количество ошибок. Исследование количества ошибок было проведено на материале раздела «Показание» САР 1-го тома. Сравнивались два текста - введенный с использованием технологии сканирования и окончательный вычитанный и исправленный вариант. Среднее количество ошибок на странице составило 13 (5 % ее объема). Была составлена таблица типовых ошибок и сформированы рекомендации по их автоматизированному исправлению.

Достаточно большое количество ошибок связано с особенностями графем шрифта, используемого для САР. В оригинальном тексте словаря использовалась так называемая Елизаветинская гарнитура. На ее основе был создан компьютерный шрифт и произведена его оценка по 10-ти основным параметрам.

Подготовленный материал САР по представленной технологии явился основой для создания электронного издания. В его составе пять компонент: гипертекстовая информационная система (ГТИС) САР, факсимильная копия САР, лингвистическая база данных (ЛБД), а также системы посвященные создателям САР и его переиздания.

ГТИС САР содержит файлы форматов HTML и PDF. Для формирования гипертекста использовался оригинал макет переиздания словаря, 80 % всех файлов были получены путем их конвертирования из формата Page Maker. Факсимильная копия САР представляет собой набор изображений страниц Словаря. Исходными данными для формирования факсимильной копии страниц САР были ксерокопии страниц словаря. Эти изображения были отсканированы и обработаны. ЛБД содержит сведения о структуре словарных статей. Основными элементами логической модели БД являются следующие сущности: индексированный словник; частотный словник; показание; словарная статья; описание слова; гнездо. Одними из основных сложностей создания ЛБД являются особенности верстки текста словаря и его структура. В связи с этим разработана формальная модель стилевой разметки словаря. Каждый том словаря содержит более 10-ти тысяч словарных статей и для автоматизированного наполнения БД разработана соответствующая программа. Интерфейс ЭСАР разработан в среде Delphi, содержит 15 художественно-оформленных оригинальных экранных форм. В экранные формы включены мультимедиа элементы.

Проведенные исследования и разработки создают предпосылки для эффективного переиздания других книг XVIII века, языковая основа которых зафиксирована в САР, а форма переиздания основана на Елизаветинской гарнитуре.

 

 

   

CLAIM - научно-образовательный кластер it-claim.ru
Все вопросы и комментарии вы можете отправлять по адресу: anna@it-claim.ru