2. ШИФРЫ ИСТОЧНИКОВ

Система шифров источников Рукописной древнерусской картотеки и Словаря русского языка XI_XVII вв. формировалась в течение длительного отрезка времени. Первые карточки Картотеки были написаны в 1925 г., тогда же и появились сокращенные наименования источников — шифры источников, из которых делались выписки для Картотеки. При этом не существовало жестких ограничений или строго определенного набора правил формирования как отдельно взятого шифра, так и их групп. Более того, выработка правил шифрования источников никогда не рассматривалась как некоторая особая задача, выделенная из множества других задач создания Картотеки. Можно считать, что шифры источников возникли по большей части интуитивно и спонтанно. Об этом свидетельствует большое количество шифров-синонимов, т.е. различных шифров одних и тех же источников. Общее число шифров, имеющих отсылочную помету на синоним (запрос на выборку всех шифров источников, в поле Полное описание источника которых встречается отсылочная помета см.), — 949, а самих синонимов — 889. Это составляет почти четверть всех шифров источников — 24..23%. Синонимы образовались, в основном, вследствие попытки привести к единообразию первичные шифры источников с одинаковым содержанием (например, все шифры житий начинаются с буквы Ж или имеют ее в составе шифра). В некоторых случаях синонимы появляются из-за того, что один и тот же источник расписывался нескольки ми людьми. Так, например, такие большие источники, как Акты исторические, Дополнения к актам историческим , расписывались разными выборщиками и имеют поэтому несколько синонимов.

Анализ шифров источников показывает, что все они являются составными кодами повторения названий источников. При этом слова, входящие в название источника, подвергаются сокращениям.

Способами сокращений являются: выделение некоторой, по мнению того, кто сокращает, значимой части слова (в основном это первые несколько букв) и аббревиация. Примеры наиболее частых сокращений приведены в соответствующем индексе во второй части книги, а также в табл.5. Обычно шифр источника сформирован таким образом, что он отражает семантику (содержание) самого источника и в какой-то степени повторяет его название, например: Гражд.об.дет. ; Гадат.кн. ; Выг.сб.; Луцид.; Лавр.лет. Шифров, имеющих мало общего с названием источников, немного, и их следует считать “исключениями”.

Таблица 5

Наиболее частые сокращения Указателя источников

Поисковый запрос <..XXX..>

Количество отобранных источников

Наиболее частые сокращения

Количество наиболее частых сокращений

Примеры

..акт..

139

А. А (а.)

78

А.углич. АЮБ I Моск.а.

..архив..

64

Арх.

 

Арх.Он.

..бум.. (бумаги)

18

Бум. бум.

9

Бум.каб.мин.I Арх.бум.Петра, I

..грамот..

102

Гр. гр.

79

Гр.Дв.там. Сев.гр.

..дело.. (а, е, у)

26+38+3+4

Д. Д д.

15+26+1+6

Д.губн.стар. ДТП I Суд.д.чуваш

..докум..

34

Док. док. д.

9 5

Док.печ.кн. Альш.Нов.док. Опис.д.Синода,I

..докл..

8

Докл.

7

Докл. в Сенате,I

..жит..

127

Ж. ж.

137

Ж.Николы Пах.ж.Серг.Р.

..запис..

88

Зап. зап.

43

Зап.Жел. Кн.зап.Моск.ст.I

..истор..

50

Ист. Гист.

19

Ист.Трои Гист.дофинская

..книг..

421

Кн. кн.

333

Кн.Енохова Дв.п.кн.

..летопис..

82

Лет. лет.

72

Лет.Рус. Моск.лет.

..материал..

74

Мат. мат.

36

Мат.ист.Сиб. Сим.мат.

..описани..

51

Опис. Оп.

11 8

Опис.Олон. Оп.ркп.(вост.)

..памятник..

75

Пам. пам. П.

11 2

Пам.Ряз. Др.пам.1 П.отреч.I

..переписк..

14

Переп.

12

Переп.Гр.

..переписн..

39

пер.

34

Кн.пер.Новг.

..письма.…

письмо..

45

20

Пис.

пис.

переп.

43

4

Пис. к Никону Подлож.пис. Ав.Пис. Переп.Ал.Петр.

..повест..

129

Пов. пов.

103

Пов. о Дариане- Аз.пов.

..послан..

60

Посл. посл.

47

Посл. Льва. Отр. посл.

..сборник..

60

Сб. сб.

18

Сб.Васс. Усп.сб.

..сказан..

63

Сказ. сказ.

41

Сказ. об Адаме Каз.сказ.

..слово..

68

Сл.

56

Сл. о куп.и сыне Ф.Прокопович. Сл.

..уложени..

13

Ул. ул.

10

Ул.Ал. Соб.ул.ц.Вас. Шуйск.

..хожден..

22

Х. Пох.

12 2

Х.Игн.См. Пох.Ив.Гост. сына

..хроника..

12

Хрон.

???

Хрон.И. Малалы, I

..чудо..

14

Ч.

3

Ч.К. и Д.

..челобит..

23

Чел. чел.

20

Чел.карг.Ав.чел.

..опись..

29

Оп.

27

Оп.Цар.арх.

 

Несмотря на спонтанность формирования шифров, можно заметить несколько наиболее часто используемых правил, которые до некоторой степени ограничивают набор возможных сокращений, а также синтаксис шифра. Это имеет важное значение не только для понимания и удобного использования шифра, не только для единого способа полиграфического оформления (в случаях ссылки на Картотеку или Словарь в научных статьях, а также в самом Словаре), но и для компьютерной версии Указателя и его электронного издания. Последнее особенно важно, так как основным преимуществом электронного издания Указателя является возможность использования его как интерактивного справочника по древнерусским источникам, а также как встраиваемого в различные компьютерные программы средства “орфографического” контроля правильности написания шифров источников (например, в издательские программные системы и текстовые редакторы).

Понимание правил формирования шифров источников в случае использования Указателя как интерактивного справочника важно, прежде всего, для реализации следующих целей:

Во-первых, для построения базы данных самого Указателя. Среди шифров источников есть такие, которые содержат выносные элементы, в основном — верхние индексы (например, А.черд.1 , Пов. о Дракуле2 ). Сохранение выносных элементов в шифрах источников приводит к существенному ограничению их дальнейшего использования, так как такая возможность предусмотрена только для одного типа данных — форматированных текстовых (“форматируемое MEMO”), а обработку данных этого типа могут выполнять не все программные системы. Кроме того, число различных операций по преобразованию данных типа “форматируемое MEMO”, поддерживаемых программными системами, существенно меньше, чем с данными других типов, а сами эти операции сложнее и кажутся пользователю более запутанными.

Во-вторых, для дальнейшей работы с Указателем. Наличие служебных символов (точка, запятая и др.) в шифрах ограничивает и усложняет последующее использование их как данных, предназначенных для поиска и преобразования. Как правило, служебные символы в различных программных системах являются “зарезервированными” элементами, т.е. используются с ограниченной семантикой. Например, символы запятая, дефис (тире), звездочка , круглые скобки в запросной системе СУБД Paradox используются как символы операторов дизъюнкция и арифметическое вычитание , арифметическое умножение , группировка операторов в выражениях ; символ точка является элементом оператора шаблона любая группа любых символов3. В определенных случаях, когда эти символы встречаются в выражении поискового запроса, их следует выделять в кавычки. Особую сложность в некоторых случаях представляет собой учет пробелов.

В-третьих, для построения систем автоматического поиска, анализа и распознавания шифров источников по их неполному или неточному описанию. Правила употребления служебных знаков в шифрах источников позволяют разработать алгоритмы и программы их автоматического распознавания для применения в информационно-поисковых системах, системах оптического распознавания (OCR) рукописных карточек Картотеки, а также в полиграфических технологиях переиздания Словаря.

При создании шифров источников руководствуются следующими синтаксическими правилами (т.е. правилами использования таких служебных знаков, как точка, запятая, дефис и др.).

Точка ставится в шифрах при указании на сокращенное слово. Запятая ставится перед римской цифрой, если она следует за несокращенным словом: Хрон.И.Малалы , I. Дефис появляется в сложных словах: Рус.-монг.отн.I , Рус.-швед.д.I , Рус.-лив.а. Звездочка * в шифре источника ставится в том случае, когда источник есть в Словаре, но отсутствует в Картотеке. Круглые скобки появляются в шифре для различения одного и того же памятника, изданного разными учеными или для различения разных редакций текстов: Ж.Ал.Нев.(Бег.) , Ж.Ал.Нев.(Мал.) , Правда Рус.(кр.), Правда Рус. (пр.), Ж.Бор.Глеб.(пар.) , Ж.Бор.Глеб.(прол.) . Римская цифра в шифре обозначает, как правило, том многотомного издания: Рим.имп.д.I...IX , Дон.д.I...V, ДАИ I...XII. Арабская цифра появляется в шифрах для указания на разные списки одного и того же памятника: Златоструй 1...5, Пов.П. и Февронии 1...2.

Использование служебных знаков в шифрах источников хотя формально и неоднозначно, все-таки отражает некоторую семантику описания. Особенностью этой семантики является то, что она не учитывается при некоторых групповых операциях с шифрами источников. Самыми важными такими операциями являются сортировка (расположение в некотором порядке) и поиск шифров. Наличие в шифрах источников служебных знаков и пробелов порождает ряд проблем для компьютерной реализации Указателя источников.

Прежде всего, это проблема сортировки. Ее суть состоит в том, что современные пользователи Указателя не учитывают при сортировке ни пробелов, ни каких-либо других служебных знаков. В то же время “прозрачность” этих символов для компьютерных программ в общем случае отсутствует. Это объясняется тем, что типовые компьютерные программы сортировки и поиска работают на основе стандартных таблиц символов. Каждому символу в такой таблице соответствует свой машинный (цифровой код), и типовые программы сортировки и поиска учитывают именно его значение. Так как служебные символы, ничего не значащие для пользователей Указателя в процессе сортировки, присутствуют в шифрах и кодируются наравне со всеми другими, порядок следования шифров после сортировки отличается от того, к которому пользователи привыкли или ожидают получить. Возможными являются два альтернативных варианта решения этой проблемы: разработка и внедрение в практику новых правил представления и сортировки шифров источников или создание специальных программных средств для сохранения сложившегося представления пользователей о “правильных” порядках следования шифров источников в каких-либо их списках или перечислениях.

Первый вариант. Внедрение новых правил сортировки и представления шифров источников в списках — это фактическое расширение “видимого” пользователями алфавита за счет добавления служебных символов. Повышение “остроты умного зрения” у пользователей компьютерной версией Указателя источников не столь уж недостижимая и трудоемкая цель. Сложившийся круг пользователей Указателем — это высококвалифицированные филологи и лингвисты, оперирующие в своей деятельности куда более сложными конструкциями, чем новая таблица символов, расширенный алфавит. Издержки первичного неудобства практического использования компьютерного Указателя и данных, полученных на основе его применения, перекрываются рядом преимуществ, которое дает использование ЭВМ (точность и качество представления печатных материалов, быстрота получения поисковых данных и др.). Для “нового поколения” пользователей Указателем иной порядок расположения шифров источников в списках не имеет существенного значения, так как может оказаться первым или единственно им известным.

Второй вариант предполагает создание специального программного обеспечения для сохранения сложившегося порядка представления шифров источников в их списках. Недостаток реализации этого варианта очевиден. Во-первых, все правила традиционной сортировки и представления списков шифров учесть в компьютерной программе не удастся, т.е. “новое” компьютерное представление Указателя все равно будет отличаться от “старого” (опубликованного в 1975 г. в виде книги). Во-вторых, дальнейшее использование созданных баз данных Указателя будет усложнено ввиду необходимости постоянного учета специальной сортировки, отличной от типовой, применяемой во всех программных системах и компьютерах.

Компромиссом рассмотренных альтернатив является следующее решение, принятое в данном издании: полиграфическая версия (публикация) Указателя источников отсортирована без учета служебных знаков, а компьютерная версия содержит два варианта таблиц баз данных: отсортированных с учетом специальных знаков и без них; последняя и используется в Информационно-поисковой системе.

Одной из особенностей компьютерной версии Указателя источников является новое представление шифров составных источников (сборников), к числу которых относятся: ВМЧ, Усп.сб., Мерило праведное , Минея четья за февраль.

Для них выбрана следующая схема описания. Шифр составного источника присутствует в списке шифров для случаев ссылок на него, как на сборник в целом. Для случаев ссылки на некоторую составную часть сборника устанавливается следующая схема. На первое место выносится собственно шифр сборника, а затем сокращенное обозначение его составной части. Для Великих Миней-Четьих такими частными сокращениями, например, являются: ВМЧ.Д.Ареопаг. О бож.им. | ВМЧ.Маргарит.1154—1161  | ВМЧ.Муч.св.жен. ; для Успенского сборника — Усп.сб.Вид.Исаи  | Усп.сб.Похв. о Лазаре | Усп.сб.Сказ. о ч.Бор.Глеб. ; для Мерила праведного — Мерило пр. С.237—252 | Мерило пр. С.463—663; для Минеи четьей за февраль — Мин.чет.февр.Ж.Авксен.  | Мин.чет.февр.Муч.Агаф .

Еще одной особенностью компьютерной версии Указателя источников является отказ от использования в шифрах верхних индексов. Все они опущены в строку.

Одним из вариантов решения проблемы представления верхних индексов в шифрах источников был компромисс, аналогичный тому, который был найден для случая сортировки. В рамках этого решения возможным являлось поднятие индексов над строкой только для данного полиграфического издания. Для этого необходимо было в тексте настоящей книги произвести более 2000 операций выборочных замен арабских цифр. Выполнить замены автоматически оказалось невозможным, а существенная трудоемкость дополнительных “ручных работ” представилась авторам неприемлемой.

Таким образом, компьютерная версия Указателя источников отличается от ранее изданной полиграфической версии следующими главными особенностями:

1) в компьютерной версии шифры источников отсортированы с учетом служебных знаков (в базе данных информационной системы в среде СУБД Paradox) и без них (в СУБД-независимой Информационно-поисковой системе);

2) в новой полиграфической версии (в настоящей книге) шифры источников отсортированы без учета служебных знаков, т.е. представлены в форме, очень близкой принятой ранее;

3) иначе, чем в ранее изданной полиграфической версии, представлены составные источники (сборники), к числу которых относятся: ВМЧ, Усп. сб., Мерило праведное, Минеи четьей за февраль;

4) и в компьютерной, и в новой полиграфической версии верхние индексы в шифрах источников опущены в строку.

Перечисленные особенности характеризуют в целом принятые решения как допустимые, компромиссные и перспективные.

Одной из особенностей Указателя Источников является наличие в нем приблизительных дат написания памятников. При этом около 10% датировок содержат вербальные описания (конец, начало, середина, 1-я четверть, вторая половина, около и др.). Остальные представления делятся приблизительно пополам по использованию арабских и римских цифр (см. рис.2).

Были проведены исследования о соответствии между вербальным и количественным представлением в полях Дата источника и Уточненная дата. Выяснилось, что исследователи использовали разбиение века на четверти в основном для обозначения 20_40-х и 60_80-х годов, а разбиение века на трети (начало, середину и конец) в остальных случаях. Например, середина века охватывает период 40_60 гг., а начало и конец — 1_15 и 85_99 гг. соответственно. Частота использования четвертей в 3_4 раза меньше, чем третей. Наиболее часто используется слово конец (примерно в 2 раза чаще, чем середина и начало).

 

 


3 В базе данных Указателя запятая встречается в 111 шифрах источников, дефис — 253, звездочка — 230, круглые скобки — 181. Точка встречается в 3687 шифрах источников.