CLAIM – научно-образовательный кластер |
|||||||||||||||||||
|
|||||||||||||||||||
Г.А. Черкасова.Информационная технология подготовки издания словарей "база данных — оригинал-макет"(на примере Русского ассоциативного словаря)Словари и энциклопедии занимают значительное место в современной книжной и электронной продукции. Можно назвать, по меньшей мере, две причины этого. Во-первых, технология представления знаний о реальном мире в лексикографической (словарной) форме оказалась наиболее распространенной и эффективной для фиксации их в определенный момент времени и для передачи из поколения в поколение. Во-вторых, словари рационально соединяют в себе лаконичность формы, глубину и широту описания знания. Они востребованы во всех социальных и профессиональных группах людей для самовыражения, коммуникации и обучения. Актуальными являются задачи разработки новых информационных технологий, подготовки издания словарей и подобных им лексикографических книжных и электронных изданий. Комплексное решение этих задач в настоящее время представляет собой новой направление прикладных научных исследований – компьютерную лексикографию, которую возможно определить как современную информационную технологию создания и использования словарей в печатной и/или электронной формах. Традиционно создание (написание) словарей и подготовка их к изданию технологически являлись независимыми. Рукопись словаря, как и любой другой книги, поступавшая к издателю, проходила все традиционные этапы и процессы: ввод, редактирование, корректуру, верстку и др. Особенности издательских процессов в связи с созданием оригинал-макетов книг-словарей в основном диктуются двумя содержательными аспектами: 1) словари являются нормативными изданиями, и ошибки в них должны быть сведены к минимуму, 2) "правильность" словаря определяется исключительно его авторами. В связи с этим в значительной степени редактирование и корректуру текстов словарей осуществляют сами авторы, которые, как правило, являются учеными-филологами. Создание словаря основано на картотечной методике и технологии. До того как обрели форму рукописи, практически все известные словари представляли собой некоторое картотечной собрание, или просто картотеку. Традиционная карточка словарной картотеки представляет собой малоформатный лист бумаги, содержащий слово (в общем случае — языковую единицу), будущего словаря и некоторую информацию, относящуюся к нему. Содержательно информация карточки — это результат некоторого наблюдения или эксперимента, раскрывающего какие-либо парадигматические или синтагматические отношения между языковыми единицами. Так выглядят карточки картотек многих словарей. Внешне технология создания словаря состоит в сопоставлении автором карточек между собой и составлении из них словарных статей. В дальнейшем словарные статьи упорядочиваются и группируются и из них выстраивается текст словаря. Различные методы упорядочивания и группировки позволяют создавать различные типы словарей, например, алфавитные и гнездовые, прямые и обратные, тематические, комбинаторные, идеографические, тезаурусы и др. Основной проблемой создателя словаря является нахождение формы, которая позволила бы отобразить результаты проведенных им наблюдений или экспериментов, множества найденных отношений между языковыми единицами. Решение проблемы автор ищет в разработке структуры словарных статей и способе их совместного представления в книге или в компьютерной среде. Компьютерные средства представления знаний в лексикографической форме, которые доступны авторам словарей, ограничены в основном двумя классами программных систем — текстовыми процессорами и системами управления базами данных (СУБД). Текстовые процессоры, в особенности широко распространенный Microsoft Word, активно используются и для составления картотек, и для подготовки текстов словарей. Они позволяют автоматизировать множество рутинных операций: ввод текстов, спеллерный контроль, форматирование, разметку, структуризацию словарной статьи, подготовку чернового варианта макета страниц издания и др. СУБД практически мало используются, однако являются средствами, которые могут существенно повысить эффективность авторской работы по составлению словарей. Они также полезны и при подготовке таких изданий, которые содержат упорядоченные наборы однотипных по составу текстовых фрагментов, в числе которых не только словари, но и различные энциклопедии, каталоги, библиографические указатели и т.п. Тексты таких изданий составляют множество отдельных словарных статьей, имеющих «структурированную» составляющую, поэтому их целесообразно вводить и хранить в виде таблиц баз данных. Такая форма представления текстов-словарей позволяет подготовить и оригинал-макет книжного издания, и создать его компьютерную версию или электронное издание. Последние по своим возможностям могут существенно превосходить обычную бумажную форму, так как позволяют увеличить количество «входов» в текст, а разные «выборки» и «проекции» создавать более «компактное» или специализированное произведение. Информационная технология «база данных — оригинал-макет», позволяет использовать возможности баз данных для формирования текста издания. Технологически независимые процессы создания и подготовки к изданию словарей при использовании информационной технологии «база данных — оригинал-макет» объединяются. Возможности СУБД позволяют автоматически провести упорядочивание и проверку полноты отдельных словарных статьей, кроме того, сформировать различные выборки, проанализировать «одинаковость» подачи материала, что на практике снижает количество ошибок и неточностей в издании. Недостатком современных СУБД является отсутствие встроенных спеллеров, которые позволяют проверять правильность ввода текста на разных языках, и невозможность хранить разные шрифтовые выделения внутри одного поля, требуют дополнительных операций при подготовке оригинал-макета. Технология подготовки оригинал-макета издания с использованием СУБД включает следующие шаги:
Структура словарной статьи определяет множество полей базы данных словаря, а первым (ключевым) полем является заголовочное слово, словосочетание или др. единица, список которых составляет словник словаря. Следует отметить, что в процессе работы над словарем, словник может и расширяться, и сужаться. Затем вводятся все данные в разработанную структуру. Периодически может проверяться полнота данных и автоматически выдавать список как полных, так и неполных статей. Работа может выполняться несколькими авторами, при этом они могут работать как над разными словарными статьями, так и над одной. При готовности части материала словаря, к работе может подключаться и редактор издательства, что позволит сократить сроки подготовки его к изданию. Параллельно с созданием базы разрабатывается и анализируется книжный формат и возможные электронные варианты. Рассмотрим в качестве примера одно научное издание «Ассоциативный тезаурус современного русского языка», данные которого получены в результате трехэтапного анкетного опроса 11,5 тысяч испытуемых в ходе массового ассоциативного эксперимента, проведенного в период с 1988 по 1997 годы. По его материалам были подготовлены и выпущены два разных книжных издания «Русского ассоциативного словаря»: в 6-ти книгах в 1994–1998 гг. и двухтомное в 2002 году; тогда же создана первая электронная версия (Русский ассоциативный словарь: Кн.1–6. / Ю.Н.Караулов, Ю.А.Сорокин, Е.Ф.Тарасов, Н.В.Уфимцева, Г.А.Черкасова. — М.: Российская АН, Ин-т. рус. яз., 1994–1998. Русский ассоциативный словарь. В 2 т. Т. 1. От стимула к реакции. Т. 2. От реакции к стимулу / Ю.Н. Караулов, Г.А. Черкасова, Н.В. Уфимцева, Ю.А. Сорокин, Е.Ф. Тарасов. М., 2002). Книги РАС это не «иллюстративный материал», собранный составителями и представленный в такой форме, а алгоритмически сконструированный лингвистический объект, являющийся одним из возможных способов представления языка. По результатам трех этапов эксперимента были сформированы исходные данные ассоциативного тезауруса русского языка (АТРЯ), содержащие более одного миллиона записей, которые представляют собой сгруппированное и упорядоченное множество пар "стимул-реакция" и соответствующие им параметры респондентов (специальность, пол, возраст). В результате сформированы два входа в текст РАС прямой "от стимула" и обратный "от реакции". Одновременно создано несколько форм представления тезауруса: компьютерная база данных, электронная и полиграфическая версии издания РАС. С помощью специальных программ формировался текст книг в следующей последовательности.
Ниже приведены примеры двух словарных статей Русского ассоциативного словаря. Прямой словарь (от стимула к реакции): ПЕЧАТАТЬ: на машинке 13; газета 7; газету, книгу 6; машинка, статью, текст 5; вслепую, деньги, на машине 3; буквы, быстро, документ, книги, стихи 2; бумага, бумаги, в прессе, вслух, действие, доклад, Иван Федоров, издание, информацию, каретка, клопов давить, книга, круглая, курсовую, листки, набирать, начать, печатная машина, писать, писать на какой-либо технике, письмо, плакат, поставить, приказ, принт, пропечатать, работать, радиограмму, разработку, рассказ, реферат, статьи, стук, сургуч, цензура, 10-ю пальцами вслепую 1; 103+51+1+36 ПЕЧАТЬ: штамп 7; газета, круглая 6; пресса 3; в документе, государственная, интеллекта, молчания, на справке, на устах, офсетная, поставить, поставлена, свободная, ставить, стоит, сургучная 2; больница, буквы, бухгалтерия, бюрократа, Восток, в паспорте, врача, высокая, газеты, деревянная, желтая, заводская, замоскворецкая, запрета, и революция, канцелярия, качать, киоск, клуба, кооператива, кот, кричать, листа, машинка, местная, моя, на бумаге, на лбу, на сердце, начать, на челе, обязательно, оттиск, принтер, публицистика, роспись, слабая, смерти, Соломона, с подписью, СССР, стенная, сургуч, тайна, типографская, удостоверение, узкая, усталости, учреждения, шрифт, штемпель, № 185 1; 102+69+2+52 Обратный словарь (от реакции к стимулу):
Электронная версия «Русского ассоциативного словаря-тезауруса» на CD-ROM, позволяет получать как словарные статьи прямого и обратного ассоциативных словарей по всему корпусу, так и по заданным значениям отдельных параметров респондентов (например, указав пол, можно получить гендерный ассоциативный словарь). Основными возможностями системы являются:
По данной технологии подготовлено еще три ассоциативных словаря:
Черкасова Галина Александровна, научный сотрудник Института языкознания РАН, Дом. адрес: 105094, Москва, Семеновская наб., д.3/1, корп.6, кв.18. Тел. 2912444 (раб.), 3600251 (дом.), annafil@comail.ru |
|||||||||||||||||||
© НОК CLAIM, 2006-2012. Замечания, вопросы и сведения об ошибках просим сообщать в форуме или присылать администратору сайта. |
|