CLAIM – научно-образовательный кластер |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Филиппович АндрейЛингвистический редакторAndrew Tools 2000
Одним из важных направлений в гуманитарных науках является внедрение в практическую деятельность лингвистов, историков и филологов современных средств обработки данных, основанных на использовании СУБД. Система Andrew Tools представляет собой комплекс программ, позволяющих исследовать и обрабатывать тексты. С помощью программы можно создавать простые, сводные, обратные, частотные, переводные словники и указатели; конкордансы различной мощности и конфигурации, а также осуществлять сортировку текстов по произвольному алфавиту. Программа имеет два режима работы: текстовый и табличный. В первом режиме можно создавать, открывать, просматривать, редактировать и распечатывать текстовые файлы в формате RTF (Rich Text Format). Этот формат является одним из основных стандартов Windows и поддерживается всеми современными текстовыми редакторами и программами верстки. Создание словников и указателей. Программа позволяет автоматически создавать указатели, которые содержат информацию о всех словах и их расположении. Указываются номера страниц, строк и месторасположение слова в строке или предложении.
Табл.1.Фрагмент словника статьи.
При настройке параметров словника можно указать служебные знаки, буквы и цифры, которые не должны входить в словник. Для разбиения текста на страницы можно указать знак-разделитель или определить количество строк на странице. Существует возможность выбора правила нумерации и диапазон используемых номеров.
Создание переводных словников. Программа позволяет автоматически создавать переводные указатели для текстов с пословным переводом или соответствием (греко-славянские тексты, семиографические песнопения). При подготовке текста можно указать непереводимые слова и, переводящиеся одним словом, словосочетания. Автоматически проверяется правильность сопоставления. Если в одной строке есть ошибки, то они не влияют на весь перевод. Возможно создание отдельных и совместных указателей для двух языков. Словники создаются в табличном виде (в формате СУБД Paradox), которые легко могут быть экспортированы в другие СУБД (Access, FoxPro). Кроме этого, словники могут быть экспортированы в текстовый формат (MS Word) В табличном режиме можно также осуществлять редактирование, поиск и сортировку словников. Таблицы могут содержать около 300 тысяч записей, а при необходимости это число может быть увеличено до 2 миллионов. Обратные словники. Программа позволяет создавать обратные словники. Для этого создается специальное реверсивное поле, с помощью которого можно осуществлять сортировку по заданному алфавиту с конца слова.
Табл.2. Фрагмент обратного Словника СРЯ. (В HTML-версии примеры представлены распространенными шрифтами, поэтому вместо буквы "ять" отображается знак решетки).
Поиск и выборка. Программа имеет встроенный язык запросов SQL. С помощью него можно осуществлять нечеткий поиск, т.е. задавать условия отбора с помощью шаблонов. Например, выбрать все слова, содержащие сочетание букв "кряж" (%кряж%) или слова, имеющих окончание "ысати". Также можно производить объединение и пересечение нескольких таблиц.
Табл. 3. Выборка из словника СРЯ.
Табл. 4. Выборка из словника СРЯ.
Конкордансы. Программа позволяет создавать различные виды конкордансов. При задании параметров можно указать размер (количество слов), дистанцию (расстояние между элементами) и направление (правосторонний, левосторонний и обоесторонний) конкорданса. Для быстрой сортировки или индексации конкордансов можно создать поле, содержащее только первое слово. Эта функция также полезна для сортировки словарей, содержащих пометы и варианты написания слов.
Табл.5. Фрагмент трехсловного конкорданса с дистанцией в одно слово.
Частотные словники. Для проведения статистических исследований можно создавать частотные словники. В настоящее время разрабатывается модуль лемматизации слов, который позволит повысить эффективность частотной обработки слов в различных грамматических формах.
Табл. 6. Фрагменты частотного словника статьи.
Табл.7. Фрагменты частотного словника статьи.
В результате выполнения запросов всегда отображается количество записей, что позволяет получить дополнительные статистики. Так, например, при исследовании Указателя источников СРЯ было определено точное количество летописей, писем, житий сказаний и т.д.
Сводные словники. Под сводным словником в программе понимается указатель слов, содержащие ссылки на все страницы (строки), в которых они встречаются. Номера страниц (строк) размещаются через запятую и сохраняются в виде текстового файла.
Табл.8. Фрагмент сводного словника статьи.
Специальная сортировка. Функцию сортировки следует выделить отдельно. Программа имеет уникальную возможность упорядочивания словников по пользовательскому алфавиту. Программа ориентирована на использование нестандартных алфавитов, произвольных шрифтов и многоязычных текстов. Все современные СУБД имеют встроенные методы и процедуры обработки информации (поиска, замены, сортировки и др.). Однако, эти методы используют лишь определенные языковые драйверы, поддерживающие только современные языки и стандартные наборы символов, что не позволяют выполнить, например, алфавитную сортировку древнерусских и греческих слов. Для задания пользовательского порядка сортировки используется понятие алфавита. Для каждого алфавита создается своя таблица, которая заполняется всеми возможными (допустимыми) символами. После этого пользователем выбирается необходимый шрифт и задается порядок следования букв и символов. По умолчанию программа позволяет задавать до 90 порядковых номеров. При этом количество символов неограниченно, т.е. некоторые символы могут иметь одинаковый порядок. Например, строчные и прописные буквы, различные начертания одной буквы и т.д. Кроме того, из алфавита можно исключить ненужные символы, на которые не нужно обращать внимание. Обычно это знаки препинания и цифры. Например, в Указателе источников СРЯ и названиях интернет-адресов (www.pskov.teia.ru) используется точечная нотация. Ниже приведен пример сортировки шифров источников. Слева указан исходный набор, посередине — результат, полученный стандартными средствами, а справа — результат работы программы.
Табл.9. Сортировка шифров Указателя источников СРЯ.
Часто встречается составное представление букв. Для этих случаев в программе имеется возможность задания двойных символов алфавита (Оу, oe, n~). Чаще всего для кодирования алфавита одного языка хватает 50 символов. Но для сортировки многоязычных текстов не хватит и 100. С помощью специальной технологии алфавит можно увеличить до 1000 и более символов.
Табл. 10. Алфавит для испанского ассоциативного словаря.
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
© НОК CLAIM, 2006-2012. Замечания, вопросы и сведения об ошибках просим сообщать в форуме или присылать администратору сайта. |
|