2. ШИФРЫ ИСТОЧНИКОВ
Система шифров источников Рукописной древнерусской картотеки и Словаря русского языка XI_XVII вв. формировалась в течение длительного отрезка времени. Первые карточки Картотеки были написаны в 1925 г., тогда же и появились сокращенные наименования источников — шифры источников, из которых делались выписки для Картотеки. При этом не существовало жестких ограничений или строго определенного набора правил формирования как отдельно взятого шифра, так и их групп. Более того, выработка правил шифрования источников никогда не рассматривалась как некоторая особая задача, выделенная из множества других задач создания Картотеки. Можно считать, что шифры источников возникли по большей части интуитивно и спонтанно. Об этом свидетельствует большое количество шифров-синонимов, т.е. различных шифров одних и тех же источников. Общее число шифров, имеющих отсылочную помету на синоним (запрос на выборку всех шифров источников, в поле Полное описание источника которых встречается отсылочная помета см.), — 949, а самих синонимов — 889. Это составляет почти четверть всех шифров источников — 24..23%. Синонимы образовались, в основном, вследствие попытки привести к единообразию первичные шифры источников с одинаковым содержанием (например, все шифры житий начинаются с буквы Ж или имеют ее в составе шифра). В некоторых случаях синонимы появляются из-за того, что один и тот же источник расписывался нескольки ми людьми. Так, например, такие большие источники, как Акты исторические, Дополнения к актам историческим , расписывались разными выборщиками и имеют поэтому несколько синонимов.
Анализ шифров источников показывает, что все они являются составными кодами повторения названий источников. При этом слова, входящие в название источника, подвергаются сокращениям.
Способами сокращений являются: выделение некоторой, по мнению того, кто сокращает, значимой части слова (в основном это первые несколько букв) и аббревиация. Примеры наиболее частых сокращений приведены в соответствующем индексе во второй части книги, а также в табл.5. Обычно шифр источника сформирован таким образом, что он отражает семантику (содержание) самого источника и в какой-то степени повторяет его название, например: Гражд.об.дет. ; Гадат.кн. ; Выг.сб.; Луцид.; Лавр.лет. Шифров, имеющих мало общего с названием источников, немного, и их следует считать “исключениями”.
Таблица 5
Наиболее частые сокращения
Указателя источников
Поисковый запрос <..XXX..> |
Количество отобранных источников |
Наиболее частые сокращения |
Количество наиболее частых сокращений |
Примеры |
..акт.. |
139 |
А. А (а.) |
78 |
А.углич. АЮБ I Моск.а. |
..архив.. |
64 |
Арх. |
|
Арх.Он. |
..бум.. (бумаги) |
18 |
Бум. бум. |
9 |
Бум.каб.мин.I Арх.бум.Петра, I |
..грамот.. |
102 |
Гр. гр. |
79 |
Гр.Дв.там. Сев.гр. |
..дело.. (а, е, у) |
26+38+3+4 |
Д. Д д. |
15+26+1+6 |
Д.губн.стар. ДТП I Суд.д.чуваш |
..докум.. |
34 |
Док. док. д. |
9 5 |
Док.печ.кн. Альш.Нов.док. Опис.д.Синода,I |
..докл.. |
8 |
Докл. |
7 |
Докл. в Сенате,I |
..жит.. |
127 |
Ж. ж. |
137 |
Ж.Николы Пах.ж.Серг.Р. |
..запис.. |
88 |
Зап. зап. |
43 |
Зап.Жел. Кн.зап.Моск.ст.I |
..истор.. |
50 |
Ист. Гист. |
19 |
Ист.Трои Гист.дофинская |
..книг.. |
421 |
Кн. кн. |
333 |
Кн.Енохова Дв.п.кн. |
..летопис.. |
82 |
Лет. лет. |
72 |
Лет.Рус. Моск.лет. |
..материал.. |
74 |
Мат. мат. |
36 |
Мат.ист.Сиб. Сим.мат. |
..описани.. |
51 |
Опис. Оп. |
11 8 |
Опис.Олон. Оп.ркп.(вост.) |
..памятник.. |
75 |
Пам. пам. П. |
11 2 |
Пам.Ряз. Др.пам.1 П.отреч.I |
..переписк.. |
14 |
Переп. |
12 |
Переп.Гр. |
..переписн.. |
39 |
пер. |
34 |
Кн.пер.Новг. |
..письма.… письмо.. |
45 20 |
Пис. пис. переп. |
43 4 |
Пис. к Никону Подлож.пис. Ав.Пис. Переп.Ал.Петр. |
..повест.. |
129 |
Пов. пов. |
103 |
Пов. о Дариане- Аз.пов. |
..послан.. |
60 |
Посл. посл. |
47 |
Посл. Льва. Отр. посл. |
..сборник.. |
60 |
Сб. сб. |
18 |
Сб.Васс. Усп.сб. |
..сказан.. |
63 |
Сказ. сказ. |
41 |
Сказ. об Адаме Каз.сказ. |
..слово.. |
68 |
Сл. |
56 |
Сл. о куп.и сыне Ф.Прокопович. Сл. |
..уложени.. |
13 |
Ул. ул. |
10 |
Ул.Ал. Соб.ул.ц.Вас. Шуйск. |
..хожден.. |
22 |
Х. Пох. |
12 2 |
Х.Игн.См. Пох.Ив.Гост. сына |
..хроника.. |
12 |
Хрон. |
??? |
Хрон.И. Малалы, I |
..чудо.. |
14 |
Ч. |
3 |
Ч.К. и Д. |
..челобит.. |
23 |
Чел. чел. |
20 |
Чел.карг.Ав.чел. |
..опись.. |
29 |
Оп. |
27 |
Оп.Цар.арх. |
Несмотря на спонтанность формирования шифров, можно заметить несколько наиболее часто используемых правил, которые до некоторой степени ограничивают набор возможных сокращений, а также синтаксис шифра. Это имеет важное значение не только для понимания и удобного использования шифра, не только для единого способа полиграфического оформления (в случаях ссылки на Картотеку или Словарь в научных статьях, а также в самом Словаре), но и для компьютерной версии Указателя и его электронного издания. Последнее особенно важно, так как основным преимуществом электронного издания Указателя является возможность использования его как интерактивного справочника по древнерусским источникам, а также как встраиваемого в различные компьютерные программы средства “орфографического” контроля правильности написания шифров источников (например, в издательские программные системы и текстовые редакторы).
Понимание правил формирования шифров источников в случае использования Указателя как интерактивного справочника важно, прежде всего, для реализации следующих целей:
Во-первых, для построения базы данных самого Указателя. Среди шифров источников есть такие, которые содержат выносные элементы, в основном — верхние индексы (например, А.черд.1 , Пов. о Дракуле2 ). Сохранение выносных элементов в шифрах источников приводит к существенному ограничению их дальнейшего использования, так как такая возможность предусмотрена только для одного типа данных — форматированных текстовых (“форматируемое MEMO”), а обработку данных этого типа могут выполнять не все программные системы. Кроме того, число различных операций по преобразованию данных типа “форматируемое MEMO”, поддерживаемых программными системами, существенно меньше, чем с данными других типов, а сами эти операции сложнее и кажутся пользователю более запутанными.
Во-вторых, для дальнейшей работы с Указателем. Наличие служебных символов (точка, запятая и др.) в шифрах ограничивает и усложняет последующее использование их как данных, предназначенных для поиска и преобразования. Как правило, служебные символы в различных программных системах являются “зарезервированными” элементами, т.е. используются с ограниченной семантикой. Например, символы запятая, дефис (тире), звездочка , круглые скобки в запросной системе СУБД Paradox используются как символы операторов дизъюнкция и арифметическое вычитание , арифметическое умножение , группировка операторов в выражениях ; символ точка является элементом оператора шаблона любая группа любых символов3. В определенных случаях, когда эти символы встречаются в выражении поискового запроса, их следует выделять в кавычки. Особую сложность в некоторых случаях представляет собой учет пробелов.
В-третьих, для построения систем автоматического поиска, анализа и распознавания шифров источников по их неполному или неточному описанию. Правила употребления служебных знаков в шифрах источников позволяют разработать алгоритмы и программы их автоматического распознавания для применения в информационно-поисковых системах, системах оптического распознавания (OCR) рукописных карточек Картотеки, а также в полиграфических технологиях переиздания Словаря.
При создании шифров источников руководствуются следующими синтаксическими правилами (т.е. правилами использования таких служебных знаков, как точка, запятая, дефис и др.).
Точка ставится в шифрах при указании на сокращенное слово. Запятая ставится перед римской цифрой, если она следует за несокращенным словом: Хрон.И.Малалы , I. Дефис появляется в сложных словах: Рус.-монг.отн.I , Рус.-швед.д.I , Рус.-лив.а. Звездочка * в шифре источника ставится в том случае, когда источник есть в Словаре, но отсутствует в Картотеке. Круглые скобки появляются в шифре для различения одного и того же памятника, изданного разными учеными или для различения разных редакций текстов: Ж.Ал.Нев.(Бег.) , Ж.Ал.Нев.(Мал.) , Правда Рус.(кр.), Правда Рус. (пр.), Ж.Бор.Глеб.(пар.) , Ж.Бор.Глеб.(прол.) . Римская цифра в шифре обозначает, как правило, том многотомного издания: Рим.имп.д.I...IX , Дон.д.I...V, ДАИ I...XII. Арабская цифра появляется в шифрах для указания на разные списки одного и того же памятника: Златоструй 1...5, Пов.П. и Февронии 1...2.
Использование служебных знаков в шифрах источников хотя формально и неоднозначно, все-таки отражает некоторую семантику описания. Особенностью этой семантики является то, что она не учитывается при некоторых групповых операциях с шифрами источников. Самыми важными такими операциями являются сортировка (расположение в некотором порядке) и поиск шифров. Наличие в шифрах источников служебных знаков и пробелов порождает ряд проблем для компьютерной реализации Указателя источников.
Прежде всего, это проблема сортировки. Ее суть состоит в том, что современные пользователи Указателя не учитывают при сортировке ни пробелов, ни каких-либо других служебных знаков. В то же время “прозрачность” этих символов для компьютерных программ в общем случае отсутствует. Это объясняется тем, что типовые компьютерные программы сортировки и поиска работают на основе стандартных таблиц символов. Каждому символу в такой таблице соответствует свой машинный (цифровой код), и типовые программы сортировки и поиска учитывают именно его значение. Так как служебные символы, ничего не значащие для пользователей Указателя в процессе сортировки, присутствуют в шифрах и кодируются наравне со всеми другими, порядок следования шифров после сортировки отличается от того, к которому пользователи привыкли или ожидают получить. Возможными являются два альтернативных варианта решения этой проблемы: разработка и внедрение в практику новых правил представления и сортировки шифров источников или создание специальных программных средств для сохранения сложившегося представления пользователей о “правильных” порядках следования шифров источников в каких-либо их списках или перечислениях.
Первый вариант. Внедрение новых правил сортировки и представления шифров источников в списках — это фактическое расширение “видимого” пользователями алфавита за счет добавления служебных символов. Повышение “остроты умного зрения” у пользователей компьютерной версией Указателя источников не столь уж недостижимая и трудоемкая цель. Сложившийся круг пользователей Указателем — это высококвалифицированные филологи и лингвисты, оперирующие в своей деятельности куда более сложными конструкциями, чем новая таблица символов, расширенный алфавит. Издержки первичного неудобства практического использования компьютерного Указателя и данных, полученных на основе его применения, перекрываются рядом преимуществ, которое дает использование ЭВМ (точность и качество представления печатных материалов, быстрота получения поисковых данных и др.). Для “нового поколения” пользователей Указателем иной порядок расположения шифров источников в списках не имеет существенного значения, так как может оказаться первым или единственно им известным.
Второй вариант предполагает создание специального программного обеспечения для сохранения сложившегося порядка представления шифров источников в их списках. Недостаток реализации этого варианта очевиден. Во-первых, все правила традиционной сортировки и представления списков шифров учесть в компьютерной программе не удастся, т.е. “новое” компьютерное представление Указателя все равно будет отличаться от “старого” (опубликованного в 1975 г. в виде книги). Во-вторых, дальнейшее использование созданных баз данных Указателя будет усложнено ввиду необходимости постоянного учета специальной сортировки, отличной от типовой, применяемой во всех программных системах и компьютерах.
Компромиссом рассмотренных альтернатив является следующее решение, принятое в данном издании: полиграфическая версия (публикация) Указателя источников отсортирована без учета служебных знаков, а компьютерная версия содержит два варианта таблиц баз данных: отсортированных с учетом специальных знаков и без них; последняя и используется в Информационно-поисковой системе.
Одной из особенностей компьютерной версии Указателя источников является новое представление шифров составных источников (сборников), к числу которых относятся: ВМЧ, Усп.сб., Мерило праведное , Минея четья за февраль.
Для них выбрана следующая схема описания. Шифр составного источника присутствует в списке шифров для случаев ссылок на него, как на сборник в целом. Для случаев ссылки на некоторую составную часть сборника устанавливается следующая схема. На первое место выносится собственно шифр сборника, а затем сокращенное обозначение его составной части. Для Великих Миней-Четьих такими частными сокращениями, например, являются: ВМЧ.Д.Ареопаг. О бож.им. | ВМЧ.Маргарит.1154—1161 | ВМЧ.Муч.св.жен. ; для Успенского сборника — Усп.сб.Вид.Исаи | Усп.сб.Похв. о Лазаре | Усп.сб.Сказ. о ч.Бор.Глеб. ; для Мерила праведного — Мерило пр. С.237—252 | Мерило пр. С.463—663; для Минеи четьей за февраль — Мин.чет.февр.Ж.Авксен. | Мин.чет.февр.Муч.Агаф .
Еще одной особенностью компьютерной версии Указателя источников является отказ от использования в шифрах верхних индексов. Все они опущены в строку.
Одним из вариантов решения проблемы представления верхних индексов в шифрах источников был компромисс, аналогичный тому, который был найден для случая сортировки. В рамках этого решения возможным являлось поднятие индексов над строкой только для данного полиграфического издания. Для этого необходимо было в тексте настоящей книги произвести более 2000 операций выборочных замен арабских цифр. Выполнить замены автоматически оказалось невозможным, а существенная трудоемкость дополнительных “ручных работ” представилась авторам неприемлемой.
Таким образом, компьютерная версия Указателя источников отличается от ранее изданной полиграфической версии следующими главными особенностями:
1) в компьютерной версии шифры источников отсортированы с учетом служебных знаков (в базе данных информационной системы в среде СУБД Paradox) и без них (в СУБД-независимой Информационно-поисковой системе);
2) в новой полиграфической версии (в настоящей книге) шифры источников отсортированы без учета служебных знаков, т.е. представлены в форме, очень близкой принятой ранее;
3) иначе, чем в ранее изданной полиграфической версии, представлены составные источники (сборники), к числу которых относятся: ВМЧ, Усп. сб., Мерило праведное, Минеи четьей за февраль;
4) и в компьютерной, и в новой полиграфической версии верхние индексы в шифрах источников опущены в строку.
Перечисленные особенности характеризуют в целом принятые решения как допустимые, компромиссные и перспективные.
Одной из особенностей Указателя Источников является наличие в нем приблизительных дат написания памятников. При этом около 10% датировок содержат вербальные описания (конец, начало, середина, 1-я четверть, вторая половина, около и др.). Остальные представления делятся приблизительно пополам по использованию арабских и римских цифр (см. рис.2).
Были проведены исследования о соответствии между
вербальным и количественным представлением в полях Дата источника и Уточненная
дата. Выяснилось, что исследователи использовали разбиение века на четверти
в основном для обозначения 20_40-х и 60_80-х годов, а разбиение века на трети
(начало, середину и конец) в остальных случаях. Например, середина века
охватывает период 40_60 гг., а начало и конец — 1_15 и 85_99 гг.
соответственно. Частота использования четвертей в 3_4 раза меньше, чем третей.
Наиболее часто используется слово конец (примерно в 2 раза чаще, чем середина
и начало).