CLAIM – научно-образовательный кластер

Филиппович Андрей

Лингвистический редактор

Andrew Tools 2000

 

Одним из важных направлений в гуманитарных науках является внедрение в практическую деятельность лингвистов, историков и филологов современных средств обработки данных, основанных на использовании СУБД.

Система Andrew Tools представляет собой комплекс программ, позволяющих исследовать и обрабатывать тексты. С помощью программы можно создавать простые, сводные, обратные, частотные, переводные словники и указатели; конкордансы различной мощности и конфигурации, а также осуществлять сортировку текстов по произвольному алфавиту.

Программа имеет два режима работы: текстовый и табличный. В первом режиме можно создавать, открывать, просматривать, редактировать и распечатывать текстовые файлы в формате RTF (Rich Text Format). Этот формат является одним из основных стандартов Windows и поддерживается всеми современными текстовыми редакторами и программами верстки.

Создание словников и указателей. Программа позволяет автоматически создавать указатели, которые содержат информацию о всех словах и их расположении. Указываются номера страниц, строк и месторасположение слова в строке или предложении.

 

Words

Page

String

Number

Лингвистический

1

1

1

редактор

1

1

2

Andrew

1

2

1

Табл.1.Фрагмент словника статьи.

 

При настройке параметров словника можно указать служебные знаки, буквы и цифры, которые не должны входить в словник. Для разбиения текста на страницы можно указать знак-разделитель или определить количество строк на странице. Существует возможность выбора правила нумерации и диапазон используемых номеров.

 

Создание переводных словников. Программа позволяет автоматически создавать переводные указатели для текстов с пословным переводом или соответствием (греко-славянские тексты, семиографические песнопения). При подготовке текста можно указать непереводимые слова и, переводящиеся одним словом, словосочетания. Автоматически проверяется правильность сопоставления. Если в одной строке есть ошибки, то они не влияют на весь перевод. Возможно создание отдельных и совместных указателей для двух языков.

Словники создаются в табличном виде (в формате СУБД Paradox), которые легко могут быть экспортированы в другие СУБД (Access, FoxPro). Кроме этого, словники могут быть экспортированы в текстовый формат (MS Word)

В табличном режиме можно также осуществлять редактирование, поиск и сортировку словников. Таблицы могут содержать около 300 тысяч записей, а при необходимости это число может быть увеличено до 2 миллионов.

Обратные словники. Программа позволяет создавать обратные словники. Для этого создается специальное реверсивное поле, с помощью которого можно осуществлять сортировку по заданному алфавиту с конца слова.

 

ратн#йши

ишй#нтар

пр#добр#йши

ишй#рбод#рп

рекши

ишкер

пукши

ишкуп

полпустоши

ишотсуплоп

припши

ишпирп

перши

ишреп

лучши

ишчул

Табл.2. Фрагмент обратного Словника СРЯ. (В HTML-версии примеры представлены распространенными шрифтами, поэтому вместо буквы "ять" отображается знак решетки).

 

Поиск и выборка. Программа имеет встроенный язык запросов SQL. С помощью него можно осуществлять нечеткий поиск, т.е. задавать условия отбора с помощью шаблонов. Например, выбрать все слова, содержащие сочетание букв "кряж" (%кряж%) или слова, имеющих окончание "ысати". Также можно производить объединение и пересечение нескольких таблиц.

 

подкряжье

кряжевый

кряжъ

кряжикъ

кряжокъ

Табл. 3. Выборка из словника СРЯ.

 

сбрысати

отбрысати

иссысати

высысати

Табл. 4. Выборка из словника СРЯ.

 

Конкордансы. Программа позволяет создавать различные виды конкордансов. При задании параметров можно указать размер (количество слов), дистанцию (расстояние между элементами) и направление (правосторонний, левосторонний и обоесторонний) конкорданса.

Для быстрой сортировки или индексации конкордансов можно создать поле, содержащее только первое слово. Эта функция также полезна для сортировки словарей, содержащих пометы и варианты написания слов.

 

Конкордансы позволяет создавать

Программа создавать различные

позволяет различные виды

создавать виды конкордансов

различные конкордансов При

виды При задании

конкордансов задании параметров

Табл.5. Фрагмент трехсловного конкорданса с дистанцией в одно слово.

 

Частотные словники. Для проведения статистических исследований можно создавать частотные словники. В настоящее время разрабатывается модуль лемматизации слов, который позволит повысить эффективность частотной обработки слов в различных грамматических формах.

 

Words

Frequency

и

42

в

17

можно

14

Программа

9

на

9

словники

8

позволяет

8

Табл. 6. Фрагменты частотного словника статьи.

 

Words

Frequency

программ

2

программа

2

Программа

9

программами

1

программе

2

программных

2

Программу

1

программы

3

Табл.7. Фрагменты частотного словника статьи.

 

В результате выполнения запросов всегда отображается количество записей, что позволяет получить дополнительные статистики. Так, например, при исследовании Указателя источников СРЯ было определено точное количество летописей, писем, житий сказаний и т.д.

 

Сводные словники. Под сводным словником в программе понимается указатель слов, содержащие ссылки на все страницы (строки), в которых они встречаются. Номера страниц (строк) размещаются через запятую и сохраняются в виде текстового файла.

 

знак-разделитель

1

знаки

1, 4

и

1, 2, 3, 4, 5

из

1, 3, 4

или

1, 2, 3

имеет

1, 2, 3

имеется

4

Табл.8. Фрагмент сводного словника статьи.

 

Специальная сортировка. Функцию сортировки следует выделить отдельно. Программа имеет уникальную возможность упорядочивания словников по пользовательскому алфавиту. Программа ориентирована на использование нестандартных алфавитов, произвольных шрифтов и многоязычных текстов.

Все современные СУБД имеют встроенные методы и процедуры обработки информации (поиска, замены, сортировки и др.). Однако, эти методы используют лишь определенные языковые драйверы, поддерживающие только современные языки и стандартные наборы символов, что не позволяют выполнить, например, алфавитную сортировку древнерусских и греческих слов.

Для задания пользовательского порядка сортировки используется понятие алфавита. Для каждого алфавита создается своя таблица, которая заполняется всеми возможными (допустимыми) символами. После этого пользователем выбирается необходимый шрифт и задается порядок следования букв и символов.

По умолчанию программа позволяет задавать до 90 порядковых номеров. При этом количество символов неограниченно, т.е. некоторые символы могут иметь одинаковый порядок. Например, строчные и прописные буквы, различные начертания одной буквы и т.д.

Кроме того, из алфавита можно исключить ненужные символы, на которые не нужно обращать внимание. Обычно это знаки препинания и цифры. Например, в Указателе источников СРЯ и названиях интернет-адресов (www.pskov.teia.ru) используется точечная нотация.

Ниже приведен пример сортировки шифров источников. Слева указан исходный набор, посередине — результат, полученный стандартными средствами, а справа — результат работы программы.

 

Врем.И.Тим.

 

Вр.И.Т.

 

Врем.И.Тим.

Вр.И.Т.

Врем.И.Тим.

Вр.И.Т.

Всвл.

Врл.П.

Врл.П.

Врл.П.

Врн.М.

Врн.М.

Вс.Кн.

Вс.Кн.

Всвл.

Всвл.Ч.

Всвл.

Всвл.Ч.

Врн.М.

Всвл.Ч.

Всевол.ч.

Всевол.ч.

Всевол.ч.

Вс.Кн.

Табл.9. Сортировка шифров Указателя источников СРЯ.

 

Часто встречается составное представление букв. Для этих случаев в программе имеется возможность задания двойных символов алфавита (Оу, oe, n~).

Чаще всего для кодирования алфавита одного языка хватает 50 символов. Но для сортировки многоязычных текстов не хватит и 100. С помощью специальной технологии алфавит можно увеличить до 1000 и более символов.

 

Сим-вол

Поря-док

 

Сим-вол

Поря-док

 

Сим-вол

Поря-док

 

Сим-вол

Поря-док

a

1

g

9

n

17

u

25

A

1

G

9

N

17

U

25

a:

2

h

10

n~

18

u:

26

A:

2

H

10

N~

18

U:

26

b

3

i

11

o

19

v

27

B

3

I

11

O

19

V

27

c

4

j

12

p

20

w

28

C

4

J

12

P

20

W

28

ch

5

k

13

q

21

x

29

Ch

5

K

13

Q

21

X

29

CH

5

l

14

r

22

y

30

d

6

L

14

R

22

Y

30

D

6

ll

15

s

23

z

31

e

7

Ll

15

S

23

 

 

E

7

m

16

t

24

 

 

f

8

M

16

T

24

 

 

F

8

 

 

 

 

 

 

Табл. 10. Алфавит для испанского ассоциативного словаря.

 

 © НОК CLAIM, 2006-2012. Замечания, вопросы и сведения об ошибках просим сообщать в форуме или присылать администратору сайта.

OZON.ru Rambler's Top100