Научно-образовательный кластер CLAIM

CLAIM – научно-образовательный кластер

Г.А. Черкасова.

Информационная технология подготовки издания словарей "база данных — оригинал-макет"

(на примере Русского ассоциативного словаря)

Словари и энциклопедии занимают значительное место в современной книжной и электронной продукции. Можно назвать, по меньшей мере, две причины этого. Во-первых, технология представления знаний о реальном мире в лексикографической (словарной) форме оказалась наиболее распространенной и эффективной для фиксации их в определенный момент времени и для передачи из поколения в поколение. Во-вторых, словари рационально соединяют в себе лаконичность формы, глубину и широту описания знания. Они востребованы во всех социальных и профессиональных группах людей для самовыражения, коммуникации и обучения.

Актуальными являются задачи разработки новых информационных технологий, подготовки издания словарей и подобных им лексикографических книжных и электронных изданий. Комплексное решение этих задач в настоящее время представляет собой новой направление прикладных научных исследований – компьютерную лексикографию, которую возможно определить как современную информационную технологию создания и использования словарей в печатной и/или электронной формах.

Традиционно создание (написание) словарей и подготовка их к изданию технологически являлись независимыми.

Рукопись словаря, как и любой другой книги, поступавшая к издателю, проходила все традиционные этапы и процессы: ввод, редактирование, корректуру, верстку и др. Особенности издательских процессов в связи с созданием оригинал-макетов книг-словарей в основном диктуются двумя содержательными аспектами: 1) словари являются нормативными изданиями, и ошибки в них должны быть сведены к минимуму, 2) "правильность" словаря определяется исключительно его авторами. В связи с этим в значительной степени редактирование и корректуру текстов словарей осуществляют сами авторы, которые, как правило, являются учеными-филологами.

Создание словаря основано на картотечной методике и технологии. До того как обрели форму рукописи, практически все известные словари представляли собой некоторое картотечной собрание, или просто картотеку. Традиционная карточка словарной картотеки представляет собой малоформатный лист бумаги, содержащий слово (в общем случае — языковую единицу), будущего словаря и некоторую информацию, относящуюся к нему. Содержательно информация карточки — это результат некоторого наблюдения или эксперимента, раскрывающего какие-либо парадигматические или синтагматические отношения между языковыми единицами. Так выглядят карточки картотек многих словарей. Внешне технология создания словаря состоит в сопоставлении автором карточек между собой и составлении из них словарных статей. В дальнейшем словарные статьи упорядочиваются и группируются и из них выстраивается текст словаря. Различные методы упорядочивания и группировки позволяют создавать различные типы словарей, например, алфавитные и гнездовые, прямые и обратные, тематические, комбинаторные, идеографические, тезаурусы и др. Основной проблемой создателя словаря является нахождение формы, которая позволила бы отобразить результаты проведенных им наблюдений или экспериментов, множества найденных отношений между языковыми единицами. Решение проблемы автор ищет в разработке структуры словарных статей и способе их совместного представления в книге или в компьютерной среде.

Компьютерные средства представления знаний в лексикографической форме, которые доступны авторам словарей, ограничены в основном двумя классами программных систем — текстовыми процессорами и системами управления базами данных (СУБД). Текстовые процессоры, в особенности широко распространенный Microsoft Word, активно используются и для составления картотек, и для подготовки текстов словарей. Они позволяют автоматизировать множество рутинных операций: ввод текстов, спеллерный контроль, форматирование, разметку, структуризацию словарной статьи, подготовку чернового варианта макета страниц издания и др.

СУБД практически мало используются, однако являются средствами, которые могут существенно повысить эффективность авторской работы по составлению словарей. Они также полезны и при подготовке таких изданий, которые содержат упорядоченные наборы однотипных по составу текстовых фрагментов, в числе которых не только словари, но и различные энциклопедии, каталоги, библиографические указатели и т.п.

Тексты таких изданий составляют множество отдельных словарных статьей, имеющих «структурированную» составляющую, поэтому их целесообразно вводить и хранить в виде таблиц баз данных. Такая форма представления текстов-словарей позволяет подготовить и оригинал-макет книжного издания, и создать его компьютерную версию или электронное издание. Последние по своим возможностям могут существенно превосходить обычную бумажную форму, так как позволяют увеличить количество «входов» в текст, а разные «выборки» и «проекции» создавать более «компактное» или специализированное произведение.

Информационная технология «база данных — оригинал-макет», позволяет использовать возможности баз данных для формирования текста издания. Технологически независимые процессы создания и подготовки к изданию словарей при использовании информационной технологии «база данных — оригинал-макет» объединяются.

Возможности СУБД позволяют автоматически провести упорядочивание и проверку полноты отдельных словарных статьей, кроме того, сформировать различные выборки, проанализировать «одинаковость» подачи материала, что на практике снижает количество ошибок и неточностей в издании. Недостатком современных СУБД является отсутствие встроенных спеллеров, которые позволяют проверять правильность ввода текста на разных языках, и невозможность хранить разные шрифтовые выделения внутри одного поля, требуют дополнительных операций при подготовке оригинал-макета.

Технология подготовки оригинал-макета издания с использованием СУБД включает следующие шаги:

Подготовка и ввод словника.
Анализ и формирование структуры словарной статьи:

Выделение множества элементов, которые повторяются в каждой или в большинстве словарных статей;
Сведение отдельных элементов в некоторую последовательность;
Определение размерностей отдельных элементов и введение системы сокращений и обозначений;
Анализ и подбор шрифтов, для поддержания необходимых алфавитов и сложных знаков, содержащих ударение, надстрочные и подстрочные знаки и т.п.

Разработка «макета-образца» для последующей верстки книги.

Структура словарной статьи определяет множество полей базы данных словаря, а первым (ключевым) полем является заголовочное слово, словосочетание или др. единица, список которых составляет словник словаря. Следует отметить, что в процессе работы над словарем, словник может и расширяться, и сужаться. Затем вводятся все данные в разработанную структуру. Периодически может проверяться полнота данных и автоматически выдавать список как полных, так и неполных статей. Работа может выполняться несколькими авторами, при этом они могут работать как над разными словарными статьями, так и над одной. При готовности части материала словаря, к работе может подключаться и редактор издательства, что позволит сократить сроки подготовки его к изданию.

Параллельно с созданием базы разрабатывается и анализируется книжный формат и возможные электронные варианты.

Рассмотрим в качестве примера одно научное издание «Ассоциативный тезаурус современного русского языка», данные которого получены в результате трехэтапного анкетного опроса 11,5 тысяч испытуемых в ходе массового ассоциативного эксперимента, проведенного в период с 1988 по 1997 годы. По его материалам были подготовлены и выпущены два разных книжных издания «Русского ассоциативного словаря»: в 6-ти книгах в 1994–1998 гг. и двухтомное в 2002 году; тогда же создана первая электронная версия (Русский ассоциативный словарь: Кн.1–6. / Ю.Н.Караулов, Ю.А.Сорокин, Е.Ф.Тарасов, Н.В.Уфимцева, Г.А.Черкасова. — М.: Российская АН, Ин-т. рус. яз., 1994–1998. Русский ассоциативный словарь. В 2 т. Т. 1. От стимула к реакции. Т. 2. От реакции к стимулу / Ю.Н. Караулов, Г.А. Черкасова, Н.В. Уфимцева, Ю.А. Сорокин, Е.Ф. Тарасов. М., 2002).

Книги РАС это не «иллюстративный материал», собранный составителями и представленный в такой форме, а алгоритмически сконструированный лингвистический объект, являющийся одним из возможных способов представления языка. По результатам трех этапов эксперимента были сформированы исходные данные ассоциативного тезауруса русского языка (АТРЯ), содержащие более одного миллиона записей, которые представляют собой сгруппированное и упорядоченное множество пар "стимул-реакция" и соответствующие им параметры респондентов (специальность, пол, возраст). В результате сформированы два входа в текст РАС прямой "от стимула" и обратный "от реакции". Одновременно создано несколько форм представления тезауруса: компьютерная база данных, электронная и полиграфическая версии издания РАС.

С помощью специальных программ формировался текст книг в следующей последовательности.

База данных упорядочивалась по стимулам (словнику) РАС, а внутри каждого стимула по ассоциации-реакции; затем вычислялась частота каждой разной ассоциации на соответствующий стимул. Результат конвертировался в текстовые файлы MS DOS.
Формировались словарные статьи прямого и обратного словарей РАС, структуры которых идентичны и состоят из заголовочного слова (СТИМУЛА для прямого РАC или РЕАКЦИИ для обратного) и следующего за ним списка слов-ассоциатов на данный стимул (для прямого) или списка стимулов, породивших эту реакцию (для обратного), в порядке убывания частоты пары "стимул-реакция". Частота указывается или вслед за отдельным элементом списка, если он один имеет такую частоту встречаемости в ответах испытуемых, или в конце группы слов-ассоциатов или стимулов (для прямого и обратного соответственно), имеющих одинаковую частоту встречаемости, причем внутри такой группы слова расположены в алфавитном порядке. Завершается словарная статья количественными характеристиками: первая цифра — это общее число пар "стимул-реакция" в исходной базе; вторая — число разных, отличающихся одна от другой пар, третья — число отказов испытуемых отвечать на данный стимул (есть только в прямом словаре) и четвертая — число единичных пар в данной статье, т.е. с частотой 1.
Вносилось шрифтовое оформление заголовочных слов и слов-ассоциатов, которые являются элементами словника прямого словаря.
К полученным данным программно добавлялась количественные данные.
Результат записывался в текстовый файл и затем формировался окончательный оригинал-макет в среде издательской системы (Ventura для 6-ти томного издания и PageMaker 6.5 для двухтомного)

Ниже приведены примеры двух словарных статей Русского ассоциативного словаря.

Прямой словарь (от стимула к реакции):

ПЕЧАТАТЬ: на машинке 13; газета 7; газету, книгу 6; машинка, статью, текст 5; вслепую, деньги, на машине 3; буквы, быстро, документ, книги, стихи 2; бумага, бумаги, в прессе, вслух, действие, доклад, Иван Федоров, издание, информацию, каретка, клопов давить, книга, круглая, курсовую, листки, набирать, начать, печатная машина, писать, писать на какой-либо технике, письмо, плакат, поставить, приказ, принт, пропечатать, работать, радиограмму, разработку, рассказ, реферат, статьи, стук, сургуч, цензура, 10-ю пальцами вслепую 1; 103+51+1+36

ПЕЧАТЬ: штамп 7; газета, круглая 6; пресса 3; в документе, государственная, интеллекта, молчания, на справке, на устах, офсетная, поставить, поставлена, свободная, ставить, стоит, сургучная 2; больница, буквы, бухгалтерия, бюрократа, Восток, в паспорте, врача, высокая, газеты, деревянная, желтая, заводская, замоскворецкая, запрета, и революция, канцелярия, качать, киоск, клуба, кооператива, кот, кричать, листа, машинка, местная, моя, на бумаге, на лбу, на сердце, начать, на челе, обязательно, оттиск, принтер, публицистика, роспись, слабая, смерти, Соломона, с подписью, СССР, стенная, сургуч, тайна, типографская, удостоверение, узкая, усталости, учреждения, шрифт, штемпель, № 185 1; 102+69+2+52

Обратный словарь (от реакции к стимулу):

ПЕЧАТАЕТ

машинка 2
ПЕЧАТАЛА

газета
ПЕЧАТАТЬ*

машинка 6; издательство, кончать, лист, на машине, объявление, отчет, писать, почерк, секретарь, стучать, текст, фото, экземпляр 1; 14+19
ПЕЧАТАЮЩАЯ

машинка 2
ПЕЧАТЕЙ

семь
ПЕЧАТИ

хранитель 4; знак, кодекс, краткий, матрица, отдел, условие 1; 7+10
ПЕЧАТНАЯ

машинка 18; матрица, пресса, страница 1; 4+21
ПЕЧАТНАЯ МАШИНА

печатать
ПЕЧАТНОЕ

издательство, слово 1; 2+2

ПЕЧАТНЫЙ

шрифт 4; пряник 3; текст 2; знак, станок, штамп 1; 6+12
ПЕЧАТНЫХ

о листах
ПЕЧАТЬ*

штамп 34; газета, ставить 5; поставлена, справка 3; бланк, документ, журнал, издательство 2; бандероль, бумага, восстанавливать, государственная, государственный, гробовая, диплом, забыть, заела, издать, иностранный, информацию, информация, карандаш, листами, набор, номер, обозначать, письмо, поставить, пресса, рабочий, результат, рисунок, серия, тайна, телеграмма, телеграф, шрифт 1; 38+87
ПЕЧАТЬ НА ПРИНТЕРЕ

вывод

Электронная версия «Русского ассоциативного словаря-тезауруса» на CD-ROM, позволяет получать как словарные статьи прямого и обратного ассоциативных словарей по всему корпусу, так и по заданным значениям отдельных параметров респондентов (например, указав пол, можно получить гендерный ассоциативный словарь).

Основными возможностями системы являются:

диалоговый режим взаимодействия с пользователями в виде иерархических "меню";
поддержка запросов пользователей к базам прямого и обратного ассоциативного словарей;
получение статистической информации о словах-стимулах и реакциях;
получение проекций баз прямого и обратного ассоциативного словарей.
получение подмножеств баз прямого и обратного ассоциативного словаря с учетом СЛОВНИКА (списка слов-стимулов и реакций).

По данной технологии подготовлено еще три ассоциативных словаря:

Санчес Пуиг М., Караулов Ю.Н., Черкасова Г.А. Ассоциативные нормы испанского и русского языков. Москва-Мадрид, 2001. — 496 с.;
Филиппович Ю.Н., Черкасова Г.А., Дельфт Д. Ассоциации информационных технологий: эксперимент на русском и фран-цузском языках. С предисловием Н.В.Уфимцевой. М.: МГУП, 2001. 304 с. — Книга в комплекте с CD ROM;
Славянский ассоциативный словарь / Уфимцева Н.В., Черкасова Г.А., Караулов Ю.Н., Тарасов Е.Ф. М , 2004. (передан в типографию).

Черкасова Галина Александровна, научный сотрудник Института языкознания РАН, Дом. адрес: 105094, Москва, Семеновская наб., д.3/1, корп.6, кв.18. Тел. 2912444 (раб.), 3600251 (дом.), annafil@comail.ru