2. ОПИСАНИЕ ИНТЕРФЕЙСА СИСТЕМЫ

2.1. Структура интерфейса

После запуска на экране появляется главное окно системы (рис. 8). Можно выделить основные его логические элементы:

– панель подсказки (рис. 10);

– панель базовых терминов (рис. 11);

Рис. 10. Панель подсказки

Рис. 11. Панель базовых терминов

Рис. 12. Панель режимов

– панели режимов (рис. 12).

Панель подсказки дает краткую справку о текущем режиме, в котором находится система, и перечисляет основные функции выбранного режима. При загрузке системы и смене режима эта панель становится желтой, а через некоторое время “гаснет” и принимает цвет фона окна.

Панель базовых терминов служит для отображения списка всех базовых слов словарных статей семантического словаря. Этот список отображается во всех режимах, поскольку все действия над другими лингвистическими объектами в системе прямо или косвенно с ним связаны.

Панель режимов дает возможность переключаться между различными режимами, реализующими всю функциональность системы, с помощью стандартного механизма закладок (Tabs). Всего в системе имеется 5 основных режимов работы:

– режим “Словарь”;

– режим “Дерево”;

– режим “Словоформы”;

– режим “Сеть”;

– режим “Словник”.

Система построена на основе стандартных интерфейсных элементов ОС Windows 95/NT4, логика работы которых одинакова для всех режимов.

Для навигации в таблицах и списках, выполнения операций добавления, модификации и удаления отдельных записей можно воспользоваться панелями навигации. На рис. 13 приведен наиболее полный вид такой панели:

Рис. 13. Панель навигации

Ниже приводится описание назначения кнопок в порядке их следования:

– перемещение на первую запись в таблице (списке);

– перемещение на предыдущую запись в таблице;

– перемещение на следующую запись в таблице;

– перемещение на последнюю запись в таблице;

– добавление новой записи в таблицу;

– удаление текущей записи из таблицы;

– подтверждение внесенных в таблицу изменений;

– отмена внесенных в таблицу изменений.

Для выполнения всех операций в системе предусмотрены кнопки с нанесенными на них графическими изображениями. В табл. 1 приведен полный список назначений этих кнопок для каждого из режимов: 

Таблица 1

Режимы системы и примеры их использования

 

Системные функции

Выбор рабочего шрифта системы.

Настройка и инициализация рабочих таблиц.

Вызов контекстной гипертекстовой справки.

Завершение работы с системой.

 

Функции режима “Словарь”

Импорт словарных статей, автоматическое извлечение базовых слов и их толкований из текстов.

Извлечение эксцерпций из текста и построение указателя.

Получение выборки из генерального словника.

Вычисление числовых характеристик словаря.

 

Функции режима “Дерево”

Построить понятийное дерево (тезаурус “определяющее-определяемое”).

Добавить в ветвь элемент (слово).

Удалить элемент (слово) из ветви.

Удалить всю ветвь.

Сделать выбранный термин в ветви текущим.

Перейти к предыдущему термину.

Построение графа дефиниций.

Kластерный анализ тезауруса “определяющее-определяемое”.

Расчет коэффициентов неопределенности для словарных статей.

 

Функции режима “Словоформы”

Привязать или отвязать словоформу от лексемы.

Автоматическая привязка словоформ к лексемам.

Перенести словоформу в генеральный словник.

Построить частотный словник (по словам и словосочетаниям).

Работа с исходными текстами.

 

Функции режима “Сеть”

Построение корреляционной семантической сети.

Расчет (обновление) корреляционных отношений.

Построение графа отношений.

Kластерный анализ корреляционной сети.

 

Функции режима “Словник”

Построить частотный словник (по словам и словосочетаниям).

Перенести словоформу в генеральный словник.

Работа с исходными текстами.

Проведение частотного анализа.

Проведение динамического анализа.

Построение группового словника.

Сравнение текстов.

Расчет параметров распределения в модели "ранг-частота".

2.2. Системные функции   

К системным функциям относятся:

Выбор рабочего шрифта системы.

Настройка и инициализация рабочих таблиц.

Вызов контекстной гипертекстовой справки.

Завершение работы с системой

 

Выбор рабочего шрифта системы

Система “Интерлекс” имеет возможность отображать естественно-языковую информацию любым, доступным операционной системе шрифтом. По умолчанию, используется шрифт с гарнитурой MS Sans Serif и кеглем 8.

Чтобы изменить шрифт, необходимо нажать на кнопку изменения шрифта в главном окне.

На экране появится стандартное окно Windows (рис. 14):

После выбора гарнитуры шрифта, его кегля, стиля и цвета необходимо нажать OK для активизации изменений.

Возможность изменения шрифта оказывается очень полезной при работе с текстами, в которых необходимо обрабатывать специальные символы как элементы алфавита (например, старорусские тексты и т.п.).

Рис. 14. Изменение рабочего шрифта

Пример изменения стандартного шрифта на гарнитуру FlowerC, Bold Italic, 12 c цветом “Navy” (рис. 15).

Рис. 15. Пример изменения стандартного шрифта

Настройка и инициализация рабочих таблиц

Система “Интерлекс” использует для хранения промежуточной и выходной информации таблицы формата Paradox, которые хранятся в подкаталоге \DATA\ основного каталога системы (раздел “Файловая структура системы”, с. 127). Все таблицы образуют лингвистическую базу данных. При необходимости часть этих таблиц можно очистить.

Для выполнения этой операции необходимо нажать на кнопку “Настройка и инициализация рабочих таблиц”. На экране появится окно настройки, как показано на рис. 16.

Рис. 16. Инициализация рабочих таблиц

Для инициализации таблиц нужно отметить необходимые поля и нажать кнопку “Инициализация”. Следует отметить, что ряд таблиц являются зависимыми, поэтому в целях сохранения целостности базы такие таблицы можно инициализировать только все вместе (а не по отдельности).

ВНИМАНИЕ! Никогда не удаляйте файлы базы данных с помощью средств операционной системы и файловых менеджеров. Это может привести к нарушению целостности базы и сделает систему “Интерлекс” неработоспособной.

После завершения инициализации необходимо нажать “Выход” для возврата в главное окно системы.

Пример инициализации таблицы базовых терминов (рис. 17):

Рис. 17. Инициализация таблицы базовых терминов

При инициализации таблицы базовых терминов таблицы толкований, эксцерпций, указателей, графа дефиниций и частот слов должны быть также проинициализированы.        

Вызов контекстной гипертекстовой справки

В версии “Интерлекс 2.0” не реализовано.

Завершение работы с системой

Нажатие на эту кнопку приводит к закрытию главного окна системы (с сохранением всех данных) и освобождению всех занятых ресурсов (памяти, файлов и т.п.).

Для завершения работы рекомендуется использовать эту функцию.

2.3. Режим “Словник”

Режим служит для построения и анализа частотных словников. Под частотным словником естественно-языкового описания предметной области понимается совокупность естественно-языковых единиц (слов, словосочетаний), которым поставлено в соответствие число, характеризующее абсолютную или относительную частоту их встречаемости в исходном корпусе текстов. Элементы частотных словников обычно упорядочены по убыванию частотного признака.

Построение частотного словника является одним из формальных методов для выделения базовых слов (понятий, терминов) из естественно-языкового описания предметной области.

Для перехода в режим после запуска системы щелкните на закладке “Словник”. Панель режимов в этом случае примет вид (рис. 18):

Рис. 18. Режим “Словник”

В данном режиме доступны следующие функции:

Построение частотного словника.

Перенести словоформу в генеральный словник.

Работа с исходными текстами.

Проведение частотного анализа.

Проведение динамического анализа.

Построение группового словника.

Сравнение текстов.

Расчет параметров распределения.

Кроме того, в этом режиме существуют еще две закладки:

– словоформы;

– словосочетания.

Они позволяют переключаться между двумя таблицами, содержащими частотные словники соответственно по словоформам и словосочетаниям (в системе обрабатываются только парные словосочетания). В обеих таблицах можно выделить два основных поля: естественно-языковая единица и ее частота. Данные в таблицах сортируются в порядке убывания частоты.

В поле “Имя текста/фрагмента” отображается название того исходного текста, на основании которого был построен частотный словник (как по словоформам, так и по словосочетаниям).

При первом запуске системы таблицы словников пусты. Таким образом, первым шагом при работе с данным режимом является построение частотного словника.    

Построение частотного словника

Для построения частотного словника нажмите на кнопку “Построить словник”. На экране появится окно (рис. 19).

Рис. 19. Построение словника

Для построения частотного словника необходимо ввести (или выбрать) имя исходного текстового файла. Можно и желательно также присвоить файлу некоторое текстовое обозначение (например, заголовок или название). Оно будет использоваться в дальнейшем для идентификации текста.

Выбор входного формата

Далее необходимо указать тип кодировки, которой соответствует выбранный текстовый файл. Система “Интерлекс 2.0” поддерживает два формата текстовых файлов:

– MS Windows ANSI-1251;

– MS DOS OEM-866.

Если файл, подлежащий обработке, имеет другой формат (например, DOC или RTF), то его следует пересохранить в одном из указанных выше форматов. Как правило, все текстовые процессоры (MS Word в том числе) имеют возможность сохранения документа как обычного текстового файла.

Если вы знаете, что исходный текст сохранен в одном из отмеченных форматов, но не знаете, в каком именно, можно установить флажок в положение “Определять автоматически”. В этом случае перед обработкой текста система попытается выяснить его формат на основе статистических данных об используемых в нем символах. Этот метод безошибочно работает на текстах объемом от 20–30 KB.

Перед началом построения словника необходимо также задать фильтр для слов. Система имеет возможность строить словники, включая в них только слова, обладающие рядом заданных свойств (атрибутов). Всего для слов определено 7 атрибутов, которые можно разделить на две группы в зависимости от достаточности присутствия у слова атрибута для его включения в словник.

Атрибуты, отмеченное состояние которых говорит о ВОЗМОЖНОСТИ включения слов:

– русские символы;

– латинские символы;

– цифры;

– специальные символы.

Атрибуты, отмеченное состояние которых говорит, что слово ОБЯЗАНО иметь соответствующий атрибут для его включения в словник:

– первый символ прописной;

– все символы прописные;

– все символы строчные.

Таким образом, отметив только “Русские символы” и “Латинские символы”, вы получите словник, в котором будут встречаться слова с символами русского или латинского алфавита и только. В этом случае в словник может попасть слово, в котором часть символов принадлежит русскому алфавиту, а часть — латинскому.

Аналогично и с атрибутами второй группы. Отметив только “Первый символ прописной”, вы получите словник только по словам, начинающимся с большой буквы. Однако если слово имеет все буквы прописные, то оно включено в словник не будет, так как не выбран соответствующий фильтр.

Принятие соглашения:

– все цифры имеют атрибут “Прописной символ”;

– все числа имеют атрибут “Все символы прописные”;

– специальные символы:

#, $, %, &, /, <, >, =, \, ^,_,*, ~,@.

Специальные символы не являются разделителями слов, а принадлежат к основному алфавиту системы. Каждый специальный символ имеет атрибут “Прописной символ”. Любая комбинация только из специальных символов имеет атрибут “Все символы прописные”.

По умолчанию, система отмечает фильтры:

– русские символы;

– первый символ прописной;

– все символы прописные;

– все символы строчные.

Это соответствует включению в словник всех слов только с русскими символами (регистр не важен).

После установки фильтров нажмите кнопку “ЗАГРУЗКА”.На экране появится окно (рис. 20):

Рис. 20. Ожидание окончания операции

Процесс построения словника может занять определенное время (в зависимости от размера исходного текста и быстродействия компьютера).

После завершения процесса на экран будет выведено сообщение (рис. 21):

Рис. 21. Подтверждение окончания операции

Нажмите OK, система задаст следующий вопрос (рис. 22):

Рис. 22. Вы хотите выполнить автоматическое связывание словоформ и базовых терминов?

Если вы строите словник и уже имеете сформированный список базовых терминов (генеральный словник), то можно ответить “Yes” — тогда каждой словоформе будет поставлена в соответствие некоторая каноническая форма из генерального словника.

Если список базовых терминов пуст, то следует ответить “No”.

Построенный словник будет отображен на панели режимов. Щелкая на закладках “Словоформы” и “Словосочетания”, можно просматривать частотный словник по словоформам и словосочетаниям соответственно.

В поле “Имя текста (фрагмента)” будет отображено введенное вами название текста, которому соответствует полученный словник.

Пример 1      

Исходные данные:

– файл с исходным текстом в формате MS Windows DOS-866;

– установленная система “Интерлекс”.

Задача:

– построить частотный словник по словам и словосочетаниям.

Исходный текст — электронная версия компьютерного еженедельника “ComputerWeek”, №1, 1995 (рис. 23). Текст сохранен под именем 01_95.TXT в формате DOS-866 в папке F:\TEXT. Объем файла ~420KB (около 16 страниц).      

Рис. 23. Фрагмент номера еженедельника “ComputerWeek”, №1, 1995

Решение:

1. Запустить систему “Интерлекс”.

2. Перейти в режим “Словник”.

3. Нажать на кнопку “Построить словник”.

4. В поле “Имя текстового файла” набрать: F:\TEXT\01_95.TXT.

5. В поле “Название текста” набрать: Computer Week, 1, 1995.

6. Указать кодировку текста: “Определять автоматически”.

7. Указать фильтры: “Русские символы”, “Первый символ прописной”, “Все символы прописные”, “Все символы строчные”.

8. Нажать кнопку “Загрузка”.

9. Дождаться окончания операции.

10. Ответить “No” на вопрос “Вы хотите выполнять автоматическое связывание словоформ и базовых терминов?”

Результат построения приведен на рис. 24. А в табл. 2 приведены фрагменты самих частотных словников.

Рис. 24. Результат построения частотных словников

Таблица 2

Частотный словник по словоформам

Частотный словник по парным словосочетаниям

Словоформа

Частота

Словоформа

Словоформа

Частота

В

1527

А

ТАKЖЕ

72

И

1511

КKРОМЕ

ТОГО

54

С

849

С

ПОМОЩЬЮ

51

НА

786

ВЫ

МОЖЕТЕ

42

ДЛЯ

611

И

В

40

ПО

481

КKАKК

И

40

НЕ

434

НА

БАЗЕ

39

ЧТО

345

БАЗ

ДАННЫХ

33

КK

316

В

KАЧЕСТВЕ

31

КKАKК

273

БАЗЫ

ДАННЫХ

29

ИЗ

237

ТО

ЧТО

29

А

219

В

ТОМ

29

ИЛИ

219

В

ОБЛАСТИ

28

ДАННЫХ

216

НАСТОЯЩЕЕ

ВРЕМЯ

28

ОТ

189

В

НАСТОЯЩЕЕ

28

КKОМПАНИИ

177

ДОСТУП

КK

26

ПРИ

158

ИЗ

НИХ

26

СИСТЕМЫ

157

ТАKИМ

ОБРАЗОМ

24

ТАKЖЕ

155

ТАK

И

24

ЭТО

143

НА

РЫНKЕ

23

СИСТЕМ

134

ПО

МНЕНИЮ

22

ТО

127

ПО

СЛОВАМ

22

ДОЛЛ

127

ТАK

КKАKК

21

ВЫ

125

НЕСМОТРЯ

НА

21

ИХ

125

ПРИ

ЭТОМ

21

ВСЕ

125

НЕ

ТОЛЬKО

20

БОЛЕЕ

125

ПРОГРАММНЫХ СРЕДСТВ

 

19

НО

124

ЧТО

В

19

ЗА

123

ДОСТУПА

КK

19

Табл. 2 получена с помощью утилиты DBD32 и двух SQL- запросов:

SELECT Wordform, Frequency

FROM ‘freqtbl.db’, ‘wordform.db’

WHERE WordformID=RecordID

ORDER BY Frequency DESC

SELECT A.Wordform, B.Wordform, Frequency

FROM ‘pairfreq.db’, ‘wordform.db’ A, ‘wordform.db’ B

WHERE FirstID=A.RecordID AND SecondID=B.RecordID AND TextID=1

ORDER BY Frequency DESC

Пример 2

Исходные данные:

– файл с исходным текстом в формате MS Windows DOS-866;

– установленная система “Интерлекс”.

Задача:

– построить частотный словник только по англоязычной лексике.

Исходный текст — электронная версия компьютерного еженедельника “ComputerWeek”, №1, 1995 (рис. 23). Текст сохранен под именем 01_95.TXT в формате DOS-866 в папке F:\TEXT. Объем файла ~420KB (около 16 страниц).

Решение:

1. Запустить систему “Интерлекс”.

2. Перейти в режим “Словник”.

3. Нажать на кнопку “Построить словник”.

4. В поле “Имя текстового файла” набрать: F:\TEXT\01_95.TXT.

5. В поле “Название текста” набрать: Computer Week, 1, 1995 (Eng).

6. Указать кодировку текста: “Определять автоматически”.

7. Указать фильтры: “Латинские символы”, “Первый символ прописной”, “Все символы прописные”, “Все символы строчные”.

8. Нажать кнопку “Загрузка”.

9. Дождаться окончания операции.

10. Ответить “No” на вопрос “Вы хотите выполнять автоматическое формирование словоформ и базовых терминов?”.

11. С помощью клавиш панели навигации выбрать текст с названием “Computer Week, 1, 1995 (Eng)”.

Результат построения приведен на рис. 25. А в табл. 3 приведены фрагменты самих частотных словников.

Рис. 25. Результат построения частотных словников

Таблица 3

Частотный словник по словоформам

Частотный словник по парным словосочетаниям

Словоформа

Частота

Словоформа

Словоформа

Частота

WINDOWS

165

ECCO

PROFESSIONAL

98

PROFESSIONAL

108

WINDOWS

NT

27

ECCO

108

HEWLETT

PACKARD

17

IBM

107

DOSSHELL

INI

12

INTEL

86

PICTURE

PUBLISHER

10

INFOCENTRAL

74

TOPAS

PROFESSIONAL

10

MICROSOFT

72

ARABESQUE

SOFTWARE

10

UNIX

57

CD

ROM

9

PENTIUM

50

FIRST

AID

9

NETWARE

50

SQL

SERVER

9

DUO

45

APPLE

COMPUTER

8

NOVELL

40

MOBILE

DATA

8

SOFTWARE

38

VISUAL

REALITY

8

COMPUTER

37

IBM

PC

8

SQL

35

COMPUTER

ASSOCIATES

7

APPLE

34

BUSINESS

OBJECTS

7

ORACLE

34

NOVELL

NETWARE

7

SYSTEM

33

RAM

MOBILE

7

DOS

32

BLUE

LIGHTNING

6

DCE

32

POWERBOOK

DUO

6

NT

31

FIRST

UNION

6

APPLETALK

31

SOFTWARE

AG

5

VISUAL

30

SILICON

VIDEO

5

SERVER

30

NORTH

AMERICA

5

SYSTEMS

25

MICRO

EXPRESS

5

SYBASE

24

THIN

CRT

5

SYQUEST

23

DIGITAL

EQUIPMENT

5

POWERBOOK

22

AST

RESEARCH

5

ADVANCED

22

BARCLAYS

BANK

5

INTERNET

22

COMPAQ

COMPUTER

5

                                                                                                                                                        

Табл. 3 получена с помощью утилиты DBD32 и двух SQL- запросов:

SELECT Wordform, Frequency

FROM ‘freqtbl.db’, ‘wordform.db’

WHERE WordformID=RecordID AND TextID=2

ORDER BY Frequency DESC

SELECT A.Wordform, B.Wordform, Frequency

FROM ‘pairfreq.db’, ‘wordform.db’ A, ‘wordform.db’ B

WHERE FirstID=A.RecordID AND SecondID=B.RecordID AND TextID=2

ORDER BY Frequency DESC

Перенос словоформ в генеральный словник

В режиме “Словник” доступна функция переноса словоформ в генеральный словник. С помощью этой функции постепенно формируется список базовых терминов (т.е. основа генерального словника).

В генеральный словник могут попадать как отдельные слова, так и словосочетания (не более чем из трех слов).

Чтобы перенести некоторое слово (или словосочетание), в генеральный словник, необходимо установить курсор на нужном слове (словосочетании) и нажать кнопку “Перенести в словарь”. На экране появится окно (рис. 26):       

Рис. 26. Перенос словоформы в список базовых терминов

Обратите внимание на предупреждение: “При добавлении нового термина в словарь убедитесь, что он находится в канонической форме”. Как правило, генеральный словник содержит слова в своей начальной грамматической форме (например, для существительных это именительный падеж единственного числа, для глаголов — инфинитив и т.д.).

Процесс нахождения канонической формы слов носит название лемматизации. В данном случае имеет место лемматизация отдельно взятых слов (или словосочетаний).

Таким образом, прежде чем нажать “OK”, убедитесь, что слово находится в своей начальной форме (естественно, что для этого вам потребуются определенные знания в области грамматики русского языка).

На рис. 26 приведен пример переноса слова “ПРОЦЕССОР” в список базовых слов. Обратите внимание, что в словнике оно имеет вид “ПРОЦЕССОРА”. В этом случае необходимо внести необходимые исправления.

Аналогично следует поступать и при переносе словосочетаний.

Пример 3      

Исходные данные:

– словники, построенные в примерах 1, 2.

Задача:

Перенести в генеральный словник термины ПО “Информатика и вычислительная техника”:

“ПРОГРАММА”, “СЕТЬ”, “WINDOWS NT”.

Решение:

1. С помощью панели навигации выберите текст с названием “Computer Week, 1, 1995”.

2. В таблице словоформ найдите слово “ПРОГРАММА” в любой из форм (например, <ПРОГРАММЫ, 58>).

3. Нажмите кнопку “Перенести в словарь”.

4. Измените слово “ПРОГРАММЫ” на “ПРОГРАММА”.

5. Нажмите OK.

6. В таблице словоформ найдите слово “СЕТЬ” в любой из форм (например, <СЕТИ, 89>).

7. Нажмите кнопку “Перенести в словарь”.

8. Измените слово “СЕТИ” на “СЕТЬ”.

9. Нажмите OK.

10. С помощью панели навигации выберите текст с названием “Computer Week, 1, 1995 (Eng)”.

11. В таблице словоформ найдите слово “WINDOWS NT” (например, <WINDOWS, NT, 27>).

12. Нажмите кнопку “Перенести в словарь”.

13. Термин уже находится в канонической форме (ничего исправлять не требуется).

14. Нажмите OK.

В левой части главного окна появляются три новых введенных термина (рис. 27):

Рис. 27. Результат переноса терминов из частотного

словника в список базовых терминов

Работа с исходными текстами

Система “Интерлекс” имеет возможность работать одновременно с несколькими текстами. В лингвистической базе данных системы каждому частотному словнику ставится в соответствие идентификатор текста, на основе которого он был сформирован.

Данная функция позволяет просматривать, переименовывать и удалять ссылки на тексты вместе с привязанными к ним словниками. После нажатия на кнопку “Исходные тексты” на экране появится окно (рис. 28):

Рис. 28. Работа с исходными текстами

Текущий текст всегда соответствует тексту, отображаемому в панели режимов. Таким образом, чтобы просмотреть словник по некоторому тексту, нужно выбрать его из таблицы и нажать “Закрыть”.

Для переименования названия текста или пути нужно щелкнуть мышью на подсвеченной области, внести изменения, и на панели навигации нажать кнопку “Сохранить изменения”.

Для удаления текста (точнее ссылки на текст) и всех связанных с ним словников необходимо на панели навигации нажать кнопку “Удалить текст”.        

Проведение частотного анализа

Частотный анализ в системе “Интерлекс” позволяет фиксировать заполняемость частотных интервалов на основе имеющегося частотного словника.

Каждый частотный интервал характеризуется следующими параметрами:

– общим количеством слов в тексте, принадлежащих данному интервалу;

– количеством разных слов, попавших в данный частотный интервал (т.е. количество слов в словнике, соответствующих частотному интервалу).

Для интервала [0, 999999] имеют смысл характеристики:

– математическое ожидание;

– дисперсия.

Частотный анализ проводится автоматически по всем словникам, построенным в системе.

После нажатия на кнопку “Частотный анализ” на экране появится окно (рис. 29):

Рис. 29. Определение частотных интервалов

В этом окне необходимо задать частотные интервалы, за которыми будет проводится наблюдение. Всего можно задать до 5 различных интервалов.

В системе “Интерлекс” имеется возможность задать предопределенные параметры. Для этого существует переключатель:

– По умолчанию. Устанавливает все частотные интервалы в [0, 999999].

– Стандартные. Первые два интервала [0, 999999], далее [6, 999999], [2, 5] и [1, 1].

– Расширенные. [0, 999999], [31, 999999], [10, 30], [2, 15], [1, 1].

– Пользовательские. Интервалы могут принимать произвольные значения.

Задание конкретных значений зависит от максимальной частоты слова в словнике.

Частотные интервалы позволяют построить гистограмму распределения слов по частотным интервалам и на определенном классе текстов провести исследования зависимости “высоты” столбца гистограммы от его “ширины”, а также сопоставить полученные зависимости с результатами, полученными на других текстах.

После задания частотных интервалов нажмите “OK”. После окончания операции будет выведено (рис. 30):

Рис. 30. Окончание частотного анализа

Результат частотного анализа сводится в таблицу с именем _FRQTBL_.DB, которая расположена в подкаталоге DATA системы “Интерлекс”. Чтобы просмотреть эту таблицу, запустите утилиту DBD32, сделайте рабочим каталогом ссылку “INTERLEX”, через меню file -> open -> table откройте таблицу _frqtbl_.db.           

Формат таблицы _frqtbl_.db      

Эта таблица имеет следующую структуру:

– поле “ТеxtID”: идентификатор (номер) исходного текста, для которого сделан анализ;

– поле “LowFreq”: нижняя граница частотного интервала;

– поле “HighFreq”: верхняя граница частотного интервала;

– поле “TotalForms”: общее число слов в тексте, попавших в частотный интервал;

– поле “DifForms”: число разных слов, попавших в частотный интервал;

– поле “ConstsForms”: здесь не используется (всегда равно DifForms);

– поле “AVG”: математическое ожидание (имеет смысл только для [0, 999999]);

– поле “DISP”: дисперсия (имеет смысл только для [0, 999999]).

Чтобы получить окончательный результат, рекомендуется выполнить следующий SQL-запрос:

select TextName, LowFreq, HighFreq, TotalForms, DifForms

from “_frqtbl_.db”, “texttbl.db”

where textid=recordid;

Пример 4      

Исходные данные:

– Частотные словники, построенные в примерах 1, 2.

Задача:

Провести частотный анализ первого словника, построить гистограмму распределения количества слов по частотным интервалам. Выбрать значения частотных интервалов так, чтобы их ширина была одинаковой и они покрывали весь частотный диапазон.

Решение:

1. С помощью панели навигации выберите текст с названием “Computer Week, 1, 1995”.

2. Определите максимальную частоту слова в частотном словнике: <В, 1527>.

3. Таким образом, весь частотный диапазон для рассматриваемого словника = [1, 1527].

4. Разбиваем этот диапазон на 5 одинаковых интервалов
[0, 305], [305, 612], [612, 917], [917,1223], [1223, 999999] .

5. Нажимаем кнопку “Частотный анализ”.

6. Вводим полученные значения (с помощью утилиты DBD32 выполняем приведенный выше SQL-запрос) .

7. Результат приведен в табл. 4.

Таблица 4

Название текста (TextName)

LowFreq

HighFreq

TotalForms

DifForms

1

COMPUTER WEEK, 1, 1995

0

305

40663

11267

2

COMPUTER WEEK, 1, 1995

305

612

2187

5

3

COMPUTER WEEK, 1, 1995

612

917

1635

2

4

COMPUTER WEEK, 1, 1995

917

1223

0

0

5

COMPUTER WEEK, 1, 1995

1223

999999

3038

2

6

COMPUTER WEEK, 1, 1995 (ENG)

0

305

4905

1344

7

COMPUTER WEEK, 1, 1995 (ENG)

305

612

0

0

8

COMPUTER WEEK, 1, 1995 (ENG)

612

917

0

0

9

COMPUTER WEEK, 1, 1995 (ENG)

917

1223

0

0

10

COMPUTER WEEK, 1, 1995 (ENG)

1223

999999

0

0

В табл. 4:

LowFreq — нижняя граница частотного интервала.

HighFreq — верхняя граница частотного интервала.

TotalForms — общее число слов в тексте в данном

частотном интервале.

DifForms — количество разных слов в данном частотном

интервале.

Построим гистограммы распределения числа слов в тексте и числа разных слов по частотным интервалам для текста “Computer Week, 1, 1995”.

Для этого удобно воспользоваться системой MS Excel, предварительно перенеся данные из таблицы “_FRQTBL_.DB” (рис. 31, 32).

Рис. 31

Рис.32

Проведение динамического анализа

Целью анализа динамических характеристик текстов является выявление закономерностей в частотных свойствах естественно-языковых объектов, взятых из развернутого во времени корпуса текстов по определенной предметной области, характеризующейся определенным стилем и жанром.

Задачами динамического анализа являются:

– исследование динамической структуры текстов;

– исследование динамической структуры словника;

– исследование динамики содержания словника;

– исследования динамики наполнения словника;

– определение “стоимости” слова.

На рис. 33 приведена схема проведения динамического анализа.

Рис. 33. Схема проведения динамического анализа

Для проведения анализа динамических характеристик необходимо сформировать развернутый во времени корпус текстов. Например, это могут быть тексты разных номеров одного и того же периодического издания (журнала, газеты и т.п.). Каждый из этих текстов должен быть представлен в электронном виде в формате, доступном для обработки его в системе “Интерлекс”. По каждому из текстов необходимо построить частотный словник.

Для проведения динамического анализа нажмите кнопку “Динамический анализ”. На экране появится окно (рис. 34):

Рис. 34. Задание частотных интервалов

В этом окне необходимо задать частотные интервалы, за которыми будет проводится наблюдение. Всего можно задать до 5 различных интервалов.

В системе “Интерлекс” имеется возможность задать предопределенные параметры. Для этого существует переключатель:

– По умолчанию. Устанавливает все частотные интервалы в [0, 999999].

– Стандартные. Первые два интервала [0, 999999], далее [6, 999999], [2, 5] и [1, 1].

– Расширенные [0, 999999], [31, 999999], [10, 30], [2, 15], [1, 1].

– Пользовательские. Интервалы могут принимать произвольные значения.

Задание конкретных значений зависит от максимальной частоты слова в построенных словниках.

После ввода частотных интервалов нажмите “OK”. Процесс динамического анализа может занять некоторое время, о чем будет сообщено в открывшемся окне.

Результат динамического анализа сводится в таблицу с именем _DYNTBL_.DB, которая расположена в подкаталоге DATA системы “Интерлекс”. Чтобы просмотреть эту таблицу, запустите утилиту DBD32, сделайте рабочим каталогом ссылку “INTERLEX”, через меню file -> open -> table откройте таблицу _dyntbl_.db.

Формат таблицы _dyntbl_.db     

Эта таблица имеет следующую структуру:

– поле “ТеxtID”: идентификатор (номер) исходного текста, для которого сделан анализ;

– поле “LowFreq”: нижняя граница частотного интервала;

– поле “HighFreq”: верхняя граница частотного интервала;

– поле “TotalForms”: общее число слов в тексте, попавших в частотный интервал;

– поле “DifForms”: число разных слов, попавших в частотный интервал;

– поле “ConstsForms”: ядро частотного интервала (число слов, оставшихся в данном частотном интервале в словнике по всему корпусу текстов);

– поля “AVG” и “DISP” не используются и равны 0.

Максимальное количество текстов, которые могут участвовать в динамическом анализе, — 50. Система всегда включает в файл “_dyntbl_.db” информацию о 50 текстах. Если текстов меньше, то в таблице записи, для которых текстов не существует (TextID> максимального значения), копируются значения параметров последнего построенного словника, т.е. словника по всему корпусу текстов.

Использование значений таблицы “_dyntbl_.db” для анализа динамики структуры текстов

Воспользуемся теперь полученными значениями для анализа динамики структуры текстов. Для этого необходимо определить долю слов (М) в каждом частотном интервале для каждого текста относительно общего числа слов во всем корпусе текстов:

Пусть:

N (r1, r2, t) — число слов в тексте в частотном интервале [r1, r2] для текста t.

M (r1, r2, t) — доля слов в частотном интервале [r1, r2] для текста t.

Результаты этого расчета можно занести в MS Excel и представить их в виде таблицы (табл. 5):  

Таблица 5

ЧИ

Текст 1

Текст 2

Текст 3

...

Текст N

[r1, r2]

M (r1, r2, 1)

M (r1, r2, 2)

M (r1, r2, 3)

 

M (r1, r2, N)

[r3, r4]

M (r3, r4, 1)

M (r3, r4, 2)

M (r3, r4, 3)

 

M (r3, r4, N)

...

 

 

 

 

 

[ri, rj]

M (ri, rj, 1)

M (ri, rj, 2)

M (ri, rj, 3)

 

M (ri, rj, N)

 

 

 

 

 

 

По этой таблице можно построить графики зависимости доли слов в частотном интервале от номера текста (или от времени) для каждого частотного интервала.

Использование значений таблицы “_dyntbl_.db” для анализа динамики структуры словников          

Воспользуемся теперь полученными значениями для анализа динамики структуры словников. Для этого необходимо определить долю слов (М) в каждом частотном интервале для каждого текста относительно общего числа слов в этом тексте:

Пусть:

N (r1, r2, t) — число слов в словнике в частотном интервале [r1, r2] для текста t.

M (r1, r2, t) — доля слов в частотном интервале [r1, r2] для текста t.

Результаты этого расчета можно занести в MS Excel и представить их в виде таблицы (табл. 6):  

Таблица 6

ЧИ

Текст 1

Текст 2

Текст 3

...

Текст N

[r1, r2]

M (r1, r2, 1)

M (r1, r2, 2)

M (r1, r2, 3)

 

M (r1, r2, N)

[r3, r4]

M (r3, r4, 1)

M (r3, r4, 2)

M (r3, r4, 3)

 

M (r3, r4, N)

...

 

 

 

 

 

[ri, rj]

M (ri, rj, 1)

M (ri, rj, 2)

M (ri, rj, 3)

 

M (ri, rj, N)

 

 

 

 

...

 

По этой таблице можно построить графики зависимости доли слов в частотном интервале от номера текста (или от времени) для каждого частотного интервала.

Использование значений таблицы “_dyntbl_.db” для анализа динамики содержания словников        

Воспользуемся теперь полученными значениями для анализа динамики содержания словников. Для этого необходимо определить долю слов (М) в каждом частотном интервале для каждого текста относительно общего числа слов в этом частотном интервале во всем корпусе текстов.

Пусть:

N (r1, r2, t) — число слов в словнике в частотном интервале [r1, r2] для текста t.

M (r1, r2, t) — доля слов в частотном интервале [r1, r2] для текста t.

Результаты этого расчета можно занести в MS Excel и представить их в виде таблицы (табл. 7):  

Таблица 7

ЧИ

Текст 1

Текст 2

Текст 3

...

Текст N

[r1, r2]

M (r1, r2, 1)

M (r1, r2, 2)

M (r1, r2, 3)

 

M (r1, r2, N)

[r3, r4]

M (r3, r4, 1)

M (r3, r4, 2)

M (r3, r4, 3)

 

M (r3, r4, N)

...

 

 

 

 

 

[ri, rj]

M (ri, rj, 1)

M (ri, rj, 2)

M (ri, rj, 3)

 

M (ri, rj, N)

По этой таблице можно построить графики зависимости доли слов в частотном интервале от номера текста (или от времени) для каждого частотного интервала.

Использование значений таблицы “_dyntbl_.db” для анализа динамики наполнения словников         

Воспользуемся теперь полученными значениями для анализа динамики наполнения словников. Для этого необходимо определить долю слов (М) в каждом частотном интервале для каждого текста относительно общего числа слов в этом частотном интервале во всем корпусе текстов.

Пусть:

N (r1, r2, t) — ядро частотного интервала [r1, r2] для текста t.

M (r1, r2, t) — доля ядра частотного интервала [r1, r2] для текста t.

Результаты этого расчета можно занести в MS Excel и представить их в виде таблицы (табл. 8):  

Таблица 8

ЧИ

Текст 1

Текст 2

Текст 3

...

Текст N

[r1, r2]

M (r1, r2, 1)

M (r1, r2, 2)

M (r1, r2, 3)

 

M (r1, r2, N)

[r3, r4]

M (r3, r4, 1)

M (r3, r4, 2)

M (r3, r4, 3)

 

M (r3, r4, N)

...

 

 

 

 

 

[ri, rj]

M (ri, rj, 1)

M (ri, rj, 2)

M (ri, rj, 3)

 

M (ri, rj, N)

По этой таблице можно построить графики зависимости доли слов в частотном интервале от номера текста (или от времени) для каждого частотного интервала.

Использование значений таблицы “_dyntbl_.db” для расчета “цены” слова

Под “ценой” слова понимается отношение изменения числа разных слов (числа слов в словнике) к изменению общего числа слов.

Пусть:

N (r1, r2, t) — число разных слов (число слов в словнике) для интервала [r1, r2] для текста t.

P (r1, r2, t) — общее число слов в тексте в частотном интервале [r1, r2] для текста t.

C (r1, r2, t) — цена слова из частотного интервала [r1, r2] для текста t.

Результаты этого расчета можно занести в MS Excel и представить их в виде таблицы (таблица 9):

Таблица 9

ЧИ

Текст 1

Текст 2

Текст 3

...

Текст N–1

[r1, r2]

C (r1, r2, 1)

C (r1, r2, 2)

C (r1, r2, 3)

 

C (r1, r2, N)

[r3, r4]

C (r3, r4, 1)

C (r3, r4, 2)

C (r3, r4, 3)

 

C (r3, r4, N)

...

 

 

 

 

 

[ri, rj]

C (ri, rj, 1)

C (ri, rj, 2)

C (ri, rj, 3)

 

C (ri, rj, N)

Пример 5      

Исходные данные:

– Корпус текстов компьютерного еженедельника “Computer Week”, 1995 (№1, 2, 3, 4, 5, 6, 7, 8, 9).

Задача:

Провести динамический анализ текстов на примере первых 9 номеров еженедельника “Computer Week”, исследовать динамику структуры текстов, динамику структуры словников, динамику содержания словников, динамику наполнения словников, вычислить “цену” слов.

Построить необходимые графики.

Провести исследование для частотных интервалов:

[1,1], [2,5], [6,inf].

Решение:

1. Постройте частотные словники для каждого из текстов.

2. Нажмите кнопку “Динамический анализ”.

3. Установите значения частотных интервалов — стандартные.

4. Нажмите “OK”.

5. Дождитесь окончания процесса.

6. Запустите утилиту DBD32, входящую в состав комплекса “Интерлекс”.

7. Откройте файл “_dyntbl_.db”, расположенный в подкаталоге DATA (рис. 35).

Рис. 35. Таблица “_dyntbl_.db” после проведения динамического анализа первых 9 текстов еженедельника “Computer Week”

Параметр TextID — индекс текста. Необходимо помнить, что в динамическом анализе все параметры рассчитываются по совокупности текстов. Например, параметры для TextID=0 соответствуют параметрам по тексту 1, параметры для TextID=2 — параметрам, полученным по текстам 1 и 2, как если бы это был один текст и, наконец, TextID=9 — параметры по всему корпусу текстов, т.е. по всем 9 журналам еженедельника “Computer Week”.

Необходимо обратить внимание, что каждому TextID соответствует 4 частотных интервала:

– [0, 999999]

– [1, 1]

– [2, 5]

– [6, 999999]

Здесь 999999 является эквивалентом бесконечности (inf).

8.      Проведем анализ динамики структуры текстов. Для этого запустим MS Excel и скопируем данные по всем текстам и частотным интервалам по параметру “Общее число слов” (TotalForms), сформируем таблицу (табл. 10) и построим графики (рис. 36).

Таблица 10

 

T1

T2

T3

T4

T5

T6

T7

T8

T9

[0,999999]

47523

93703

138231

182817

220866

262842

303170

349144

393500

[1,1]

6527

9171

11009

12425

13374

14369

15133

15943

16813

[2,5]

9535

14955

18487

21670

23858

26381

28270

30482

32176

[6,999999]

31461

69577

108735

148722

183634

222092

259767

302719

344511

 

47523

93703

138231

182817

220866

262842

303170

349144

393500

 

 

 

 

 

 

 

 

 

 

 

T1

T2

T3

T4

T5

T6

T7

T8

T9

[0,999999]

0,12077

0,238127

0,351286

0,464592

0,561286

0,667959

0,770445

0,887278

1

[1,1]

0,016587

0,023306

0,027977

0,031576

0,033987

0,036516

0,038457

0,040516

0,042727

[2,5]

0,024231

0,038005

0,046981

0,05507

0,06063

0,067042

0,071842

0,077464

0,081769

[6,999999]

0,079952

0,176816

0,276328

0,377947

0,466668

0,564402

0,660145

0,769299

0,875504 

Рис. 36. Динамика структуры текстов

9. Проведем анализ динамики структуры словников. Для этого запустим MS Excel и скопируем данные по всем текстам и частотным интервалам по параметру “Количество разных слов” (DifForms), сформируем таблицу (табл. 11) и построим графики (рис. 37).

Таблица 11

 

T1

T2

T3

T4

T5

T6

T7

T8

T9

[0,999999]

11276

16962

21125

24400

26785

29260

31321

33536

35648

[1,1]

6527

9171

11009

12425

13374

14369

15133

15943

16813

[2,5]

3406

5262

6542

7601

8363

9183

9847

10592

11172

[6,999999]

1343

2529

3574

4374

5048

5708

6341

7001

7663

 

11276

16962

21125

24400

26785

29260

31321

33536

35648

 

T1

T2

T3

T4

T5

T6

T7

T8

T9

[0,999999]

1

1

1

1

1

1

1

1

1

[1,1]

0,57884

0,540679

0,521136

0,509221

0,499309

0,49108

0,483158

0,4754

0,471639

[2,5]

0,302057

0,310223

0,30968

0,311516

0,312227

0,313841

0,31439

0,31584

0,313398

[6,999999]

0,119103

0,149098

0,169183

0,179262

0,188464

0,195079

0,202452

0,208761

0,214963 

Рис. 37. Динамика структуры словников

10. Проведем анализ динамики содержания словников. Для этого запустим MS Excel и скопируем данные по всем текстам и частотным интервалам по параметру “Количество разных слов” (DifForms), сформируем таблицу (табл. 12) и построим графики (рис. 38).

Таблица 12

 

T1

T2

T3

T4

T5

T6

T7

T8

Т9

[0,999999]

11276

16962

21125

24400

26785

29260

31321

33536

35648

[1,1]

6527

9171

11009

12425

13374

14369

15133

15943

16813

[2,5]

3506

5262

6542

7601

8363

9183

9847

10592

11172

[6,99999]

1343

2529

3574

4374

5048

5708

6341

7001

7663

 

Т1

Т2

Т3

Т4

Т5

Т6

Т7

Т8

Т9

[0,99999]

0,316315

0,475819

0,5926

0,68447

0,751375

0,820803

0,878619

0,940754

1

[1,1]

0,388212

0,545471

0,654791

0,739011

0,795456

0,854636

0,900077

0,948254

1

[2,5]

0,304869

0,470999

0,585571

0,680362

0,748568

0,821966

0,8814

0,948084

1

[6,99999]

0,175258

0,330027

0,466397

0,570795

0,65875

0,744878

0,827483

0,913611

1

Рис. 38. Динамика содержания словников

11.  Проведем анализ динамики наполнения словников. Для этого запустим MS Excel и скопируем данные по всем текстам и частотным интервалам по параметру “Постоянное число слов в ЧИ” (ConstsfForms), сформируем таблицу (табл. 13) и построим графики (рис. 39).

Таблица 13

 

Т1

Т2

Т3

Т4

Т5

Т6

Т7

Т8

Т9

[0,999999]

11276

16962

21125

24400

26785

29260

31321

33536

35648

[1,1]

6527

9171

11009

12425

13374

14369

15133

15943

16813

[2,5]

3506

5262

6542

7601

8363

9183

9847

10592

11172

[6,99999]

1343

2529

3574

4374

5048

5708

6341

7001

7663

 

Т1

Т2

Т3

Т4

Т5

Т6

Т7

Т8

Т9

[0,99999]

0,316315

0,475819

0,5926

0,68447

0,751375

0,820803

0,878619

0,940754

1

[1,1]

0,388212

0,545471

0,654791

0,739011

0,795456

0,854636

0,900077

0,948254

1

[2,5]

0,304869

0,470999

0,585571

0,680362

0,748568

0,821966

0,8814

0,948084

1

[6,99999]

0,175258

0,330027

0,466397

0,570795

0,65875

0,744878

0,827483

0,913611

1

Рис. 39. Динамика наполнения словников

12. Проведем анализ динамики наполнения словников. Воспользуемся уже построенными таблицами (см. табл. 10, 11). Построим табл. 14, согласно формуле в разделе “Использование значений таблицы “_dyntbl_.db” для расчета “цены” слова”, после чего построим график “цены” слова (рис. 40).

Таблица 14

 

T1

T2

T3

T4

T5

T6

T7

T8

[0,999999]

0,123127

0,093492

0,073454

0,062682

0,058962

0,051106

0,048179

0,047615

[1,1]

1

1

1

1

1

1

1

1

[2,5]

0,342435

0,362401

0,332705

0,348263

0,32501

0,351509

0,336799

0,342385

[6,999999]

0,031116

0,026687

0,020007

0,019306

0,017162

0,016802

0,015366

0,01584

 

Рис. 40. “Цена” слова

Построение группового словника

Под групповым словником понимается частотный словник, который получается сложением двух и более уже построенных словников. Так, если были построены частотные словники по текстам A, B и C, то может быть построен групповой словник, который будет соответствовать частотному словнику по тексту A+B+C (знак + означает конкатенацию текстов).

Групповые словники в неявном виде строились при динамическом анализе, однако в системе имеется возможность построить и в явном виде.

Для построения группового словника нажмите кнопку “Построить групповой словник”. На экране появится окно (рис. 41).

Рис. 41. Выбор текстов (или фрагментов текста) для построения группового словника

В этом окне необходимо указать имена тех текстов (точнее словников), по которым будет сформирован групповой словник. Список уже отобранных текстов отображается в таблице. По умолчанию, в этот список попадают все тексты, по которым строились частотные словники. С помощью клавиши “Удалить” можно исключить ненужный текст из списка, а с помощью панели навигации и кнопки “Добавить” новый текст может быть в него включен.

После того как список текстов, по которым будет построен групповой словник, сформирован, нужно нажать клавишу “OK”.

Процесс построения группового словника может занять некоторое время. Следует отметить, что реальные тексты не участвуют в построении группового словника. Групповой словник строится исключительно на основе соответствующих частотных словников.

Результат помещается в специальную таблицу с именем “_wftbl_.db”, которая размещается в подкаталоге DATA. Для ее просмотра удобно воспользоваться утилитой DBD32, входящей в состав комплекса “Интерлекс” (рис. 42).

Рис. 42. Просмотр группового словника с помощью утилиты DBD32

Формат таблицы “_wftbl_.db”   

Эта таблица имеет следующую структуру:

– WordformID — внутренний идентификатор словоформы;

– Wordform — словоформа;

– AbsFreq — абсолютная частота встречаемости словоформы в текстах, вошедших в группу;

– RelFreq — относительная частота встречаемости словоформы в текстах, вошедших в группу.

Относительная частота определяется через отношение абсолютной частоты встречаемости словоформы к общему числу слов в группе текстов.       

Пример 6      

Исходные данные:

Построенные в примере 5 частотные словники по 9 текстам журнала еженедельника “Сomputer Week”.

Задача:

Построить групповой словник по журналам с номерами 1, 3, 5, 7, 9.

Решение:

1. Нажмите кнопку “Построить групповой словник”.

2. С помощью клавиши “Удалить” исключите из списка тексты, которые не войдут в групповой словник. Это тексты 02_95, 04_95, 06_95 и 08_95. Убедитесь, что в списке остались только те тексты журналов, номера которых перечислены в задании.

3. Нажмите “OK” и дождитесь окончания процесса.

4. Запустите утилиту DBD32, откройте таблицу “_wftbl_.db”.

5. Данные в таблице — это групповой словник по текстам журналов с номерами 1, 3, 5, 7 и 9.

Сравнение текстов

Сравнение текстов (или проверка гипотезы об “однородности” текстов) является одним из инструментов, позволяющих выяснить, являются ли два текста представлением одной и той же предметной области, жанра и стиля. В основу такого сравнения положены два правила.

Чтобы тексты были “однородными”, необходимо:

1. Чтобы их словники были приблизительно одинаковы. Речь идет о словарном составе словников. Иными словами, в текстах должны использоваться “одинаковые” слова.

2. Расположение этих слов в упорядоченном по убыванию частоты частотном словнике также должно быть приблизительно одинаковым.

К сожалению, эти два критерия можно назвать необходимыми, но они не являются достаточными. И причина в том, что формальных методов, оперирующих только с частотной информацией о естественно-языковых единицах недостаточно для выводов о семантической природе текстов.

Таким образом, сравнение текстов может служить лишь формальным инструментом, позволяющим сравнивать структурные особенности текстов.

Для проверки “однородности” двух текстов необходимо построить их частотные словники (см. раздел “Построение частотного словника”), а затем нажать на кнопку “Проверка однородности текстов”. На экране появится окно (рис. 43):     

Рис. 43. Проверка гипотезы об “однородности” текстов

Проверка гипотезы производится с помощью статистического критерия Вилкоксона, позволяющего судить об однородности двух выборок. Указанные выше критерии формируют числовые ряды, которые можно использовать рассматривать как выборки в критерии Вилкоксона.

С помощью панелей навигации выберите два текста, подлежащих сравнению, задайте уровень значимости и нажмите “OK”.

На панели c названием “Результат” будет выведено:

“Гипотеза подтверждена...” или “Гипотеза не подтверждена...”

Пример 7      

Исходные данные:

Построенные в примере 5 частотные словники по 9 текстам журнала еженедельника “Сomputer Week”.

Задача:

Проверить гипотезу об однородности текстов журнала №1 и 9 при 5%-ном уровне доверия.

Решение:

1. Нажмите кнопку “Проверка гипотезы об однородности текстов”.

2. С помощью панелей навигации выберите тексты с именами 01_95 и 09_95.

3. Установите уровень доверия: 0.05.

4. Нажмите “OK”.

5. Результат: “Гипотеза подтверждена с уровнем значимости 0.5000”.

Расчет параметров распределения

С помощью этой функции системы “Интерлекс” есть возможность получать реальные параметры и функциональные зависимости распределения в модели “ранг-частота”.

Ранг и частота являются важнейшими атрибутами элементов частотного словника:

– ранг — это порядковый номер слова в упорядоченном по убыванию частоты словнике;

– частота — формальный параметр слова (словоформы) в словнике, характеризующий частоту его (ее) появления в исходном тексте.

Наиболее известны два закона, связывающих эти две характеристики:

1. Закон Ципфа:

где k — число слов в тексте; r — ранг слова, i(k,r) - абсолютная частота.

2. Закон Ципфа в общем виде: , где k — число слов в тексте; r — ранг слова; i(k,r) — абсолютная частота; p, b — параметры распределения.

3. Закон Мандельброта: i(k, r) = pk(r + v) -b, где k — число слов в тексте; p, v, b — параметры распределения; r — ранг слова; i(k,r) — абсолютная частота.

С помощью системы “Интерлекс” можно найти параметры распределения Ципфа и Мандельброта, а также получить свое собственное распределение для текстов определенного класса.

Система “Интерлекс” позволяет аппроксимировать реальное распределение “ранг-частота” с помощью полиномов первого, второго, третьего, четвертого и пятого порядков (на основе метода наименьших квадратов). Система рассчитывает коэффициенты этих полиномов, которые могут быть преобразованы в соответствующие параметры распределения Ципфа и Мандельброта.

Расчет параметров ведется по всем текстам, частотные словники которых были построены в системе.

Для расчета параметров распределения модели “ранг-частота” нажмите кнопку “Параметры распределения ранг-частота”. На экране появится окно (рис. 44):

Рис. 44. Расчет параметров модели “ранг-частота”

Выберите модель аппроксимации (полином 1–5 порядка) и нажмите OK.

После окончания процесса расчета параметров на экран будет выведено (рис. 45):

Рис. 45. Расчет модели произведен

Результаты расчета всегда помещаются в таблицу с именем “_rfprm_.db”, которая расположена в подкаталоге DATA.

Для ее просмотра можно воспользоваться утилитой DBD32 (рис. 46):

Рис. 46. Таблица параметров распределения в модели “ранг-частота”

 

Формат таблицы “_rfprm_.db”  

Таблица имеет следующую структуру:

– TextID — идентификатор текста, к которому относятся рассчитанные параметры;

– WordsCount — число разных слов в тексте (число слов в словнике);

– WordsSum — общее число слов в тексте;

·         С0, С1, ..., C5 — коэффициенты полинома:

где i(k, r) — абсолютная частота; k — число слов в тексте (т.е. WordsSum); r — ранг слова.

Для получения приближенных значений параметров в законе Мандельброта можно воспользоваться формулами:

(1)

           

Значения C0, C1, C2 — коэффициенты полинома второго порядка.

Для вычисления параметров распределения з-на Ципфа можно воспользоваться точными формулами, которые можно получить так:

 

(2)

Здесь С0 и C1 — это коэффициенты полинома первого порядка (т.е. линейной функции):

На рис. 47 приведены графики распределения Ципфа и Мандельброта.        

Рис. 47. Графики распределения Ципфа (p=0.1, b=1) и Мандельброта (p=0.0271, b=0.66, v=4)

Пример 8      

Исходные данные:

Построенные в примере 5 частотные словники по 9 текстам журнала еженедельника “Сomputer Week”.

Задача:

Рассчитать параметры распределения закона Ципфа (p и b) для всех 9 текстов журнала, построить теоретическую и физическую кривые по первому тексту.

Решение:

1. Нажмите кнопку “Параметры распределения ранг-частота”.

2. Выберите линейную модель аппроксимации.

3. Дождитесь окончания процесса.

4. Запустите утилиту DBD32.

5. Откройте файл “_rfprm_.db”.

6. Перенесите данные в MS Excel и постройте следующую таблицу (табл. 15). Параметры p и b можно рассчитать по формулам (2).

Таблица 15

№ текста

Разных слов

Всего слов

Kоэффициенты полинома первого порядка

Параметры распределения в законе Ципфа

 

 

 

С0

С1

р

–b

1

11276

47523

–3,27374

–0,7903

0,037865

–0,7903

2

10899

46180

–3,30789

–0,78295

0,036593

–0,78295

3

10492

44528

–3,20726

–0,79706

0,040467

–0,79706 

4

10287

44586

–3,09058

–0,81634

0,045476

–0,81634

5

9247

38049

–3,24946

–0,78402

0,038795

–0,78402

6

10141

41976

–3,13149

–0,81254

0,043653

–0,81254

7

9631

40328

–3,2119

–0,79301

0,04028

–0,79301

8

10536

45974

–3,15722

–0,80717

0,042544

–0,80717

9

10469

44356

–3,15378

–0,80871

0,04269

–0,80871

7. Постройте групповой словник только по первому тексту.

7.1. Нажмите кнопку “Построить групповой словник”.

7.2. С помощью кнопки “Удалить” оставьте в списке только текст с именем 01_95.

7.3. Нажмите кнопку “OK”.

7.4. Дождитесь окончания операции.

8. Запустите утилиту DBD32 и откройте файл “_wftbl_.db”.

9. Перенесите частотный словник в MS Excel.

10. Отсортируйте его по убыванию частоты.

11. Вычислите значения ln r, ln (RelFreq), ln p1 — b1ln r.

12. Постройте графики физического и теоретического распределения (рис. 48).

 

Рис. 48. Физическое распределение и распределение Ципфа (p=0.037865, b=0.7903)

                       

2.4. Режим “Словоформы”

Режим “Словоформы” служит для просмотра, добавления и редактирования словоформ. В отличие от режима “Словник” режим “Словоформы” дает возможность работать со словником, в котором слова упорядочены по алфавиту, а не по частотному признаку. Кроме того, в этом режиме существует возможность просмотра всего списка слов, когда-либо введенных в систему (без их привязки к конкретному тексту).

Режим “Словоформы” содержит важную функцию — привязку словоформ к их леммам, т.е. словам в канонической форме. Слова в канонической форме обычно являются элементами генерального словника и являются заголовочными словами словарных статей семантического словаря.

Для перехода в режим после запуска системы щелкните на закладке “Слоформы”. Главное окно системы примет вид (рис. 49):

Рис. 49. Режим “Словоформы”

Таблица “Словоформ” (рис. 49) состоит из двух полей:

– привязка;

– словоформа.

Поле “Привязка” может принимать только два значения: “Не связано” и “Связано”. Если текущая словоформа является словоизменением текущего слова из генерального словника (списка базовых слов), то значение этого поля “Связано”, в противном случае “Не связано)”.

На панели режимов также имеется независимый переключатель “Показывать все словоформы”. В активном состоянии в таблице словоформ отображаются все имеющиеся в системе словоформы, в пассивном — только словоформы, имеющие в поле “Привязка” значение “Связано”, т.е. все словоизменения текущего слова из списка базовых слов.

Рис. 50 и 51 иллюстрируют типичные состояния панели режима:

Рис. 50

Рис. 51

На рис. 50 отображен весь список словоформ (в алфавитном порядке), в котором словоформы “Статистика”, “Статистике”, “Статистики”, “Статистикой”, “Статистику” привязаны к слову “Статистика” из списка базовых слов.

На рис. 51 состояние панели режима, когда отображаются только привязанные словоформы.

В данном режиме доступны следующие функции:

Привязать или отвязать словоформу.

Автоматическая привязка словоформ.

Построение словника.

Перенести словоформу в генеральный словник.

Работа с исходными текстами.

Доступна также панель навигации по таблице словоформ, с помощью которой осуществляется ручное добавление новых словоформ, их коррекция и удаление.

Добавление новых словоформ      

При первом запуске системы таблица словоформ не содержит записей. Чтобы добавить новые словоформы в таблицу, можно воспользоваться:

– ручным вводом;

– автоматическим вводом.

Ручной ввод — это наиболее простой способ добавления словоформ в систему. Для его использования нужно воспользоваться панелью навигации. Нажмите на кнопку с изображением “” на панели навигации. В таблице словоформ появится новая незаполненная строка, в которую необходимо ввести новую словоформу. Если добавление производится при пассивном переключателе “Показывать все словоформы”, то вводимая словоформа будет автоматически привязана к текущему базовому слову. Для подтверждения окончания ввода нажмите кнопку “”. Если необходимо отказаться от введенного, то нужно нажать на кнопку “” (рис 52).

Рис. 52. Ручное добавление словоформ

Ручной способ добавления новых словоформ удобен для ввода отдельных словоформ, не связанных с каким-либо конкретным текстом.

Если же необходимо ввести все или часть словоформ из определенного текста, то следует использовать автоматический способ.

Построение словника (автоматический ввод словоформ)

Автоматический ввод словоформ полностью совпадает с функцией построения частотных словников. Использование этой функции одновременно выполняет и построение частотного словника и добавляет новые записи в таблицу словоформ. Вызов этой функции можно осуществлять как из режима “Словник” для добавления новых словоформ, так и из режима “Словоформы” для построения частотных словников. Различаются только представление данных в этих режимах.

Работа с исходными текстами

Система “Интерлекс” имеет возможность работать одновременно с несколькими текстами. В лингвистической базе данных системы каждому частотному словнику ставится в соответствие идентификатор текста, на основе которого он был сформирован.

Перенос словоформ в генеральный словник

Эта функция также совпадает с одноименной в режиме “Словник”. Ее использование в режиме “Словоформы” служит для аналогичных целей — для ручного переноса словоформ в список базовых терминов, т.е. для формирования генерального словника.

Ручная привязка словоформ к базовым словам

Функция ручной привязки словоформ является инструментом, позволяющим поставить в соответствие некоторому базовому слову (элементу генерального словника) его возможные формы, встречающиеся в тексте или которые в принципе могут быть. Система не накладывает никаких ограничений на связываемые естественно-языковые единицы. Наиболее типичным является связывание канонической формы слова с его грамматическими формами. В версии системы “Интерлекс 2.0” имеется возможность связывания словоформы только с одним каноническим представлением, тогда как в языке можно привести примеры омонимии, когда словоформа в зависимости от контекста может иметь различные канонические формы. Например, словоформа “банка” может быть словоизменением базового слова “банк” (родительный падеж, ед. ч.) либо быть самостоятельной канонической формой; словоформа “засыпал” — либо словоизменение глагола “заснуть”, либо глагола “засыпать (сыпать)” и т.п. Поэтому в подобных случаях необходимо выбрать наиболее типичный вариант для исследуемого корпуса текстов.

Чтобы выполнить ручную привязку словоформы к базовому слову, необходимо:

– выбрать в списке базовых слов слово, к которому будет привязана словоформа;

– выбрать в списке словоформ словоформу, которая будет привязана к базовому слову;

– нажать кнопку “Привязать/отвязать словоформу”.

Если выбранные базовое слово и словоформа уже были связаны, то применение этой функции выполнит обратную операцию.

Пример 9      

Исходные данные:

В списке базовых слов находится слово “ПРОЦЕССОР”.

В списке словоформ — слова “ПРОЦЕССОР”, “ПРОЦЕССОРА”, “ПРОЦЕССОРУ”, “ПРОЦЕССОРОВ”.

Задача:

Используя функцию ручной привязки словоформ к базовым словам, привяжите указанные словоформы к базовому слову.

Решение:

1. Запустите систему и, если в системе уже были данные, проинициализируйте системные таблицы.

2. Используя панель навигации, введите в систему исходные данные.

3. Установите курсор на слово “ПРОЦЕССОР” в списке базовых слов.

4. Установите курсор на слово “ПРОЦЕССОР” в списке словоформ.

5. Нажмите кнопку “Привязать/отвязать словоформу”.

6. Повторите операции 4 и 5 для остальных словоформ, которые нужно привязать.

 

Рис. 52. Ручное связывание словоформ и базовых слов

Автоматическая привязка словоформ к базовым словам

Если число словоформ и базовых слов достаточно велико, использование функции ручного связывания может оказаться затруднительным или невозможным. В этом случае можно воспользоваться функцией автоматической привязки всех словоформ к базовым словам.

Автоматическое связывание с помощью эвристического алгоритма позволяет определить, что некоторая словоформа является словоизменением некоторого базового слова. Этот алгоритм основан на известном в лингвистике методе “квазиоснов”, который был доработан и адаптирован для решения этой задачи.

Идея метода состоит в том, что в каждом слове выделяется наибольшая его часть, которая остается неизменной в словоизменительных и части словообразовательных форм.

Необходимо отметить, что реализованный в системе метод не дает 100%-ной гарантии правильной привязки словоформ к базовым словам, которые находятся в канонической форме. При использовании автоматической привязки существует опасность возникновения ошибок I и II рода.

Ошибка I рода — произошла связка словоформы и базового слова, в которой словоформа не является словоизменением данного базового слова. Ошибка II рода — система не выполнила связки между словоформой и базовым словом, где словоформа является словоизменением базового слова.

Предполагается, что указанные ошибки должны исправляться пользователем системы.

Необходимо также отметить, что метод хорошо работает на словах длиной от 6–7 символов; на словах меньшей длины возможно возникновение большого числа ошибок.

Для выполнения автоматической привязки словоформ к базовым словам необходимо нажать кнопку “Автоматическая привязка”.

Пример 10    

Исходные данные:

В списке базовых слов находится слово “ПРОЦЕССОР”.

В списке словоформ — слова “ПРОЦЕССОР”, “ПРОЦЕССОРА”, “ПРОЦЕССОРУ”, “ПРОЦЕССОРОВ”.

Задача:

Используя функцию автоматической привязки словоформ к базовым словам, привяжите указанные словоформы к базовому слову.

Решение:

1. Запустите систему и, если в системе уже были данные, проинициализируйте системные таблицы.

2. Используя панель навигации, введите в систему исходные данные.

3. Нажмите кнопку “Автоматическая привязка”.

Пример 11    

Исходные данные:

Фрагмент словаря Ожегова (около 150 словарных статей) в текстовом файле формата ANSI-1521 (поставляется с системой).

Задача:

Загрузить словарь в систему, построить словник и выполнить автоматическое связывание словоформ и базовых слов.

Решение:

1. Запустите систему и, если в системе уже были данные, проинициализируйте системные таблицы.

2. Загрузите словарь Ожегова: войдите в режим “Словарь”, нажмите на кнопку “Импорт словаря” (), выберите файл с именем OZHEGANS.TXT и нажмите кнопку “Импорт”.

3. Перейдите в режим “Словоформы”. Постройте словник по этому же файлу.

4. После окончания построения словника система выдаст запрос (рис. 53):

Рис. 53. Вы хотите выполнить автоматическое связывание словоформ и базовых терминов?

5. Необходимо ответить “Да” либо, ответив “Нет”, нажать на кнопку “Автоматическая привязка”.

6. Результат выполнения операции приведен на рис. 54.

Рис. 54. Результат автоматического связывания словоформ и базовых слов словаря Ожегова

2.5. Режим “Словарь”

Режим “Словарь” позволяет сформировать словарные статьи семантического словаря по естественно-языковому описанию предметной области. Семантический словарь, который формируется в системе “Интерлекс 2.0”, имеет следующую структуру:

– базовое (или заголовочное) слово;

– семантическое поле, т.е. совокупность всех возможных дефиниций (определений) заголовочного слова;

– эксцерпции, т.е. примеры употребления заголовочного слова в исходном тексте или корпусе текстов;

– словоуказатель, т.е. сквозной указатель строки, номер страницы и номер строки на странице эксцерпции.

Совокупность заголовочных слов составляет генеральный словник семантического словаря ЕЯ описания ПО.

Для перехода в режим “Словарь” необходимо щелкнуть на одноименной закладке. Главное окно системы примет вид (рис. 55).

Рис. 55. Режим “Словарь”

Каждое из четырех вышеперечисленных полей семантического словаря может быть сформировано независимо от другого. Единственное ограничение — это существование генерального словника. В системе реализовано два разных подхода к формированию генерального словника:

– импорт словаря из текстового файла, оформленного по определенным правилам;

– постепенное построение на основе данных частотного, динамического и семантического анализа.

Первый способ построения генерального словника и семантического поля наиболее прост. Для его использования требуется наличие текста словарных статей какого-либо семантического или толкового словаря или текст, содержащий дефиниции каких-либо терминов. Второй способ значительно сложнее, требует от пользователя определенных знаний в области лексикологии и лексикографии, но позволяет сформировать генеральный словник (и словарь) в соответствии с намеченной целью.      

В режиме “Словарь” доступны следующие функции:

Импорт словарных статей, автоматическое извлечение базовых слов и их толкований из текстов.

Извлечение эксцерпций из текста и построение указателя.

Получение выборки из генерального словника.

Вычисление числовых характеристик словаря.

Импорт словарных статей

Функция импорта словарных статей позволяет быстро сформировать генеральный словник семантического словаря на основе словарных статей другого семантического или толкового словаря, а также на основе текста, содержащего дефиниции терминов ЕЯ описания ПО. Система “Интерлекс” имеет возможность анализировать структуру текстов и “узнавать” синтаксические конструкции, используемые для оформления словарных статей и определений в тексте. Использование этой функции особенно полезно, если исходный текст содержит большое число определений и новых понятий, которые разъясняются в тексте.

Для импорта словарных статей нажмите кнопку “Импорт словаря”. На экране появится окно (рис. 56):

Рис. 56. Импорт словарных статей

Введите имя файла, содержащего текст словарных статей или дефиниции терминов. Допускаются только текстовые форматы файлов либо в ANSI-1251 кодировке (для среды Windows), либо в кодировке DOS-866 (для среды MS DOS).

Выбор входного формата 

Далее необходимо указать тип кодировки, которой соответствует выбранный текстовый файл. Система “Интерлекс 2.0” поддерживает два формата текстовых файлов:

– MS Windows ANSI-1251.

– MS DOS OEM-866.

Если файл, подлежащий обработке, имеет другой формат (например, DOC или RTF), то его следует пересохранить в одном из указанных выше форматов. Как правило, все текстовые процессоры (MS Word в том числе) имеют возможность сохранения документа как обычного текстового файла.

Если вы знаете, что исходный текст сохранен в одном из отмеченных форматов, но не знаете, в каком именно, можно установить флажок в положение “Определять автоматически”. В этом случае перед обработкой текста система попытается выяснить его формат на основе статистических данных об используемых в нем символах. Этот метод безошибочно работает на текстах объемом от 20–30 KB.

Задание фильтров  

Перед началом импорта необходимо также задать фильтр для слов. Система имеет возможность выбирать слова для списка базовых слов, обладающих рядом заданных свойств (атрибутов). Всего для слов определено 6 атрибутов.

Атрибуты, отмеченное состояние которых говорит о ВОЗМОЖНОСТИ включения слов:

– Русские символы.

– Латинские символы.

– Цифры.

– Специальные символы.

– Первый символ прописной.

– Все символы прописные.

– Все символы строчные (всегда отмечен).

Таким образом, отметив только “Русские символы” и “Латинские символы”, вы получите список базовых слов, в котором будут встречаться слова с символами русского или латинского алфавита, и только. В этом случае в него может попасть слово, в котором часть символов принадлежит русскому алфавиту, а часть — латинскому.

Принятие соглашения:

– Все цифры имеют атрибут “Прописной символ”.

– Все числа имеют атрибут “Все символы прописные”.

– Специальные символы:

#, $, %, &, /, <, >, =, \, ^,_,*, ~,@.

Специальные символы не являются разделителями слов, а принадлежат к основному алфавиту системы.

– Каждый специальный символ имеет атрибут “Прописной символ”.

– Любая комбинация только из специальных символов имеет атрибут ““Все символы прописные”.

По умолчанию, система отмечает фильтры:

– Русские символы.

– Первый символ прописной.

– Все символы прописные.

– Все символы строчные.

Это соответствует включению всех слов только с русскими символами (регистр не важен).

После установки фильтров нажмите кнопку “ИМПОРТ”.

После окончания процесса главное окно системы примет вид (рис. 57):

Рис. 57. Результат импорта словарных статей

Формат файла для импорта словаря    

Чтобы система могла успешно импортировать словарные статьи и дефиниции терминов из исходного текста, необходимо оформить их соответствующим образом. В дистрибутив системы включен пример оформления словарных статей, которые могут быть автоматически введены в систему (файл OZHEGANS.TXT). Этот файл содержит фрагмент словаря Ожегова (около 150 словарных статей):

БАБУШКА — 1. Мать отца или матери. 2. Обращение к старой женщине (разг.). Бабушка надвое сказала (разг.) — неизвестно, произойдет что-нибудь или нет.

БЕЖАТЬ — 1. Двигаться быстрым, резко отталкивающимся от земли шагом.

Бежать рысью. 2. Быстро двигаться, проходить, течь, миновать. Облака бегут. Дни бегут. Вода бежит ручьями. Кровь бежит из раны. 3. Спасаться (спастись) бегством. Бежать из плена.

БЕЛЫЙ — 1. Цвета снега или мела; противоп. черный. Белый флаг. 2. Светлый. Белый хлеб 3. Контрреволюционный. Поражение белых (сущ.). 4. Со светлой кожей (как признак расы). Белая горячка — тяжелая психическая болезнь на почве алкоголизма. Белая кость (ирон.) — о дворянах. Белое мясо — о телячьем и курином мясе. Белый билет (устар.) — свидетельство об освобождении от военной службы. Белый гриб — сорт съедобных грибов. Белый уголь — о движущей силе воды. Средь бела дня (разг.) — днем, когда совсем светло.

БИЛЕТ — 1. Документ, удостоверяющий право пользоваться чем-нибудь за плату. Театральный билет. Железнодорожный билет. Проездной билет. 2. Документ, удостоверяющий принадлежность к какой-нибудь организации, партии, отношение к каким-нибудь обязанностям. Партийный билет. Профсоюзный билет. Членский билет. Ученический билет. Отпускной билет. Военный билет. 3. Бумажный денежный знак, документ. Кредитный билет. Государственный казначейский билет. 4. Листок, карточка. Пригласительный билет. Экзаменационный билет. Билетная касса.

БОЛЬШОЙ — 1. Значительный по размерам, по величине, силе. Большой дом. Большая радость. Большая буква (прописная). 2. Значительный, выдающийся (означает высшую степень признака, положительную или отрицательную в зависимости от определяемого существительного). Большая победа. Большой вопрос. Большой поэт. Большой плут. 3. Взрослый. Большой сын. Слушаться больших (сущ.; взрослых). 4. Многочисленный. Большое знакомство. Большей частью или по большей части — преимущественно. Самое большее — наиболее возможное, не больше.

БУМАГА, 1 — 1. Материал для письма, изготовляемый из древесной или тряпичной массы. Остаться на бумаге (перен.: о решении, которое не выполняется). 2. Официальное письменное сообщение, документ. Рыться в бумагах. Ценные бумаги (денежные документы).

БУМАГА, 2 — 1. Хлопок или изделия из него.

ВЕРНУТЬСЯ — 1. Прийти обратно, возвратиться. Вернуться домой. Вернуться к прежней мысли.

Оформление заголовочных слов  

Заголовочные слова в словарных статьях должны начинаться с прописной буквы. Рекомендуется все символы заголовочных слов делать также прописными. Заголовочное слово может быть также словосочетанием (не более трех слов), в котором разделителем между словами является только пробел (или несколько пробелов). Если после заголовочного слова (словосочетания) встречается любой другой знак препинания (кроме тире), то он и все символы после него игнорируются.   

Разделитель заголовочных слов и их дефиниций        

Основной меткой, что слово или словосочетание есть заголовочное, является знак “тире”. Если предложение содержит “тире” — это значит, что в нем, возможно, есть дефиниция.         

Оформление дефиниций   

Если слово имеет только одну дефиницию, то оно должно следовать сразу же после “тире”. Рекомендуется дефиницию начинать с прописной буквы. Дефиницией может быть только одно предложение, содержащее любые знаки препинания (включая точку, если она служит для оформления сокращения). Кроме того, возможно использование скобок, внутри которых допускаются любые синтаксические конструкции. Загрузчик словарных статей системы “Интерлекс” не является формальным “компилятором” или “интерпретатором”, поэтому сообщение о синтаксической ошибке вы не получите. Однако неправильно оформленные статьи могут быть введены не полностью или неправильно. В связи с этим, особое внимание следует уделить количеству открывающихся и закрывающихся скобок в дефинициях (круглых и квадратных).

Если слово имеет несколько дефиниций, то их необходимо пронумеровать. Имеет значение только сам факт нумерации, а не конкретное числовое значение перед дефиницией. После числового номера дефиниции необходимо поставить точку, а новую дефиницию рекомендуется начинать с большой буквы. Количество дефиниций у одного слова не ограничено. Необходимо помнить, что дефиницией считается только одно предложение (первое после “тире” или номера).

Оформление словарных статей 

Если требуется импортировать в систему несколько словарных статей, то жестким требованием является разделение их хотя бы одной пустой строкой. В противном случае система может пропускать некоторые словарные статьи или вводить их неправильно.

Ввод дефиниций из произвольного текста      

Отмеченных требований к оформлению словарных статей оказывается достаточным для ввода в систему дефиниций практически из любого текста. В этом случае работает одно-единственное правило: если в тексте есть “тире”, значит, в нем, возможно, есть дефиниция.

Необходимо отметить, что в системе не предусмотрено никаких переключателей для указания способа оформления дефиниций (как словарных статей или как дефиниций в произвольном тексте). Это значит, что любой анализируемый текст обрабатывается таким образом, что если в нем обнаруживаются правильно оформленные словарные статьи, то они загружаются в систему, если нет — тогда из текста извлекаются только отдельные дефиниции.      

Пример 12    

Исходные данные:

Текстовый файл, содержащий 150 словарных статей словаря Ожегова (файл OZHEGANS.TXT поставляется с системой).

Задача:

Импортировать в систему все дефиниции.

Решение:

1. Запустите систему “Интерлекс”.

2. Перейдите в режим “Словарь”.

3. Нажмите кнопку “Импорт словаря”.

4. Выберите файл OZHEGANS.TXT.

5. Оставьте фильтры и кодировку текста установленными по умолчанию.

6. Нажмите кнопку “Импорт”.

7. Дождитесь окончания выполнения операции.

8. Внимательно изучите полученный результат (рис. 58, рис. 59, табл. 16).

Рис. 58

Рис. 59

Таблица 16

Заголовочное слово

Дефиниции

АНЮТИНЫ ГЛАЗKИ

Трехцветные садовые фиалки.

БАБУШKА

Мать отца или матери. Обращение к старой женщине (разг.).

БЕЖАТЬ

Двигаться быстрым, резко отталкивающимся от земли шагом. Быстро двигаться, проходить, течь, миновать. Спасаться (спастись) бегством.

БЕЛАЯ ГОРЯЧKА

Тяжелая психическая болезнь на почве алкоголизма.

БЕЛОЕ МЯСО

О телячьем и курином мясе.

БЕЛЫЙ

Цвета снега или мела; противоп. черный. Светлый. Kонтрреволюционный. Со светлой кожей (как признак расы).

БЕЛЫЙ ГРИБ

Сорт съедобных грибов.

БЕЛЫЙ УГОЛЬ

О движущей силе воды.

БИЛЕТ

Документ, удостоверяющий право пользоваться чем-нибудь за плату. Документ, удостоверяющий принадлежность к какой-нибудь организации, партии, отношение к каким-нибудь обязанностям. Бумажный денежный знак, документ. Листок, карточка.

БОЛЬШОЙ

Значительный по размерам, по величине, силе. Значительный, выдающийся (означает высшую степень признака, положительную или отрицательную, в зависимости от определяемого существительного). Взрослый. Многочисленный.

БУМАГА

Материал для письма, изготовляемый из древесной или тряпичной массы. Официальное письменное сообщение, документ. Хлопок или изделия из него.

В ГЛАЗА ГОВОРИТЬ

Говорить в лицо, открыто.

В ДОБРЫЙ ЧАС

Пожелание счастливого пути, начинания.

В ПЕРВУЮ ГОЛОВУ

В первую очередь.

В СТОРОНУ СKАЗАТЬ

Немного отвернувшись, сказать тихо с тем, чтобы собеседник не услышал.

. . .

. . . . . . . . .

Из примера хорошо видно, как система импортирует словарные статьи и отдельные дефиниции из текста. Обратите внимание, что именно взято в качестве дефиниций. Поскольку заголовочные слова в списке базовых слов отображаются по алфавиту, в таблице 16 присутствуют слова и словосочетания, которые были распознаны как заголовочные, но которых нет в приведенном выше фрагменте файла OZHEGANS.TXT.           

Извлечение эксцерпций и построение словоуказателя

Под эксцерпциями в системе “Интерлекс” понимаются примеры употребления базовых слов в тексте. Словоуказатель — это указатель точного места в тексте, откуда была взята соответствующая эксцерпция.

И эксцерпции и словоуказатель объединены в одну функцию и отображаются на панели режимов (рис. 60, рис. 61):

Рис. 60. Текст эксцерпции

Рис. 61. Словоуказатель

Эксцерпции и словоуказатель являются важными составляющими семантического словаря, поскольку обеспечивают непосредственную связь базовых слов с конкретными текстами.

Система “Интерлекс” позволяет извлекать эксцерпции из любого текста, при этом она использует механизм “привязки словоформ с базовыми словами”, чтобы определить эксцерпции, содержащие их словоизменения.

Система “Интерлекс” считает эксцерпцией одно полное предложение. Каждому базовому слову может соответствовать несколько эксцерпций. В системе нет ограничений на количество эксцерпций для одного слова: из анализируемого текста выбираются все возможные предложения, содержащие базовые слова.

Если эксцерпции вводятся автоматически (а не посредством панели навигации), то для каждой из них строится словоуказатель. Словоуказатель состоит из трех компонент:

– сквозной номер строки;

– номер страницы;

– номер строки на странице.

Поскольку система на вход получает текстовый файл, то для поиска эксцерпций в нем удобно использовать сквозной номер строки — номер строки, начиная от начала текста. Этот параметр не зависит от разметки текста и разбиения его на страницы. По умолчанию, текст нумеруется с первой строки.

Номер страницы и номер строки на странице имеют смысл, если текст был предварительно размечен. Система “Интерлекс” имеет возможность обрабатывать размеченные тексты и вести учет номерам страниц. Разметку текста можно производить в любом текстовом редакторе, а затем необходимо указать системе характеристики разметки.

Разметка исходных текстов      

Все параметры, относящиеся к разметке текста, хранятся в файле настроек SRCTEXT.INI (расположен в корневом каталоге системы). После инсталляции системы этот файл имеет вид (рис. 62):

Рис. 62. Содержимое файла настройки разметки текста SRCTEXT.INI

Файл настроек имеет одну секцию [TextFile] и три параметра.

Параметр PageSeparator

Значением этого параметра является символьная последовательность, используемая в системе “Интерлекс” для разделения текста на страницы. Разметку текста можно выполнить в любом доступном текстовом редакторе, а в файле настроек нужно указать соответствующую символьную последовательность. По умолчанию, используется разделитель страниц #$#$.

Параметр FirstLine

Указывает номер первой строки на странице. По умолчанию, имеет значение 1.

Параметр FirstPage

Указывает начало нумерации страниц в тексте. По умолчанию, имеет значение 1.

Извлечение эксцерпций     

Для извлечения эксцерпций нажмите кнопку “Загрузка эксцерпций”. На экране появится окно (рис. 63):

Рис. 63. Окно загрузки эксцерпций

Введите имя файла, содержащего текст, откуда будут извлекаться эксцерпции. Допускаются только текстовые форматы файлов либо в ANSI-1251 кодировке (для среды Windows), либо в кодировке DOS-866 (для среды MS DOS).

Выбор входного формата

Далее необходимо указать тип кодировки, которой соответствует выбранный текстовый файл. Система “Интерлекс 2.0” поддерживает два формата текстовых файлов:

– MS Windows ANSI-1251.

– MS DOS OEM-866.

Если файл, подлежащий обработке, имеет другой формат (например, DOC или RTF), то его следует пересохранить в одном из указанных выше форматов. Как правило, все текстовые процессоры (MS Word в том числе) имеют возможность сохранения документа как обычного текстового файла.

Если Вы знаете, что исходный текст сохранен в одном из отмеченных форматов, но не знаете, в каком именно, можно установить флажок в положение “Определять автоматически”. В этом случае перед обработкой текста система попытается выяснить его формат на основе статистических данных об используемых в нем символах. Этот метод безошибочно работает на текстах объемом от 20–30 KB.

Задание фильтров  

Перед началом извлечения эксцерпций необходимо также задать фильтр для слов. Система имеет возможность выбирать эксцерпции, в которых базовые слова обладают рядом заданных свойств (атрибутов). Всего для слов определено 6 атрибутов.

Атрибуты, отмеченное состояние которых говорит о ВОЗМОЖНОСТИ включения слов:

– Русские символы.

– Латинские символы.

– Цифры.

– Специальные символы.

– Первый символ прописной.

– Все символы прописные.

– Все символы строчные.

Таким образом, отметив только “Русские символы” и “Латинские символы”, вы получите эксцерпции, где в базовых словах встретяться символы русского или латинского алфавита, и только.

Принятие соглашения:

– Все цифры имеют атрибут “Прописной символ”.

– Все числа имеют атрибут “Все символы прописные”.

– Специальные символы:

#, $, %, &, /, <, >, =, \, ^,_,*, ~,@.

Специальные символы не являются разделителями слов, а принадлежат к основному алфавиту системы.

– Каждый специальный символ имеет атрибут “Прописной символ”.

– Любая комбинация только из специальных символов имеет атрибут “Все символы прописные”.

По умолчанию, система отмечает фильтры:

– Русские символы.

– Первый символ прописной.

– Все символы прописные.

– Все символы строчные.

Это соответствует включению всех слов только с русскими символами (регистр не важен).

После установки фильтров нажмите кнопку “ЗАГРУЗКА”.

После окончания процесса главное окно системы примет вид (рис. 64):

Рис. 64. Результат извлечения эксцерпций

Пример 13    

Исходные данные:

Текстовый файл, содержащий 150 словарных статей словаря Ожегова (файл OZHEGANS.TXT поставляется с системой).

Задача:

Импортировать словарные статьи, извлечь из этого же текста эксцерпции и построить словоуказатель

Решение:

1. Запустите систему “Интерлекс”.

2. Очистите системные таблицы (см. раздел “Настройка и инициализация рабочих таблиц”, стр. 22).

3. Выполните импорт словарных статей из файла OZHEGANS.TXT (см. “Пример 12”, стр. 79).

4. Загрузите файл OZHEGANS.TXT в текстовый редактор (например, в MS Word) и выполните разбиение на страницы. В MS Word необходимо проставить жесткие границы, а затем заменить их на символьную последовательность #$#$. После разметки файл необходимо сохранить как обычный текст под именем OZHEGPG.TXT.

5. Нажмите кнопку “Загрузка эксцерпций”.

6. Выберите файл OZHEGPG.TXT.

7. Кодировку текста и фильтры оставьте установленными по умолчанию.

8. Нажмите кнопку “Загрузка” и дождитесь окончания операции.

9. Результат будет отображен на панели режимов.

Получение выборки из генерального словника

Эта функция позволяет отобрать из всего списка базовых слов те, которые удовлетворяют заданному пользователем шаблону. Под шаблоном слова понимается регулярное выражение (или маска), которое описывает некоторую совокупность естественно-языковых единиц.

В регулярное выражение могут входить следующие символы:

– буквы русского и/или латинского алфавита;

– цифры;

– символ “_”;

– символ “%”.

Символ “_” обозначает любой символ алфавита, а символ “%” — любую последовательность символов алфавита. Например, последовательность “___” (три символа “_”) обозначает все трехбуквенные слова, а последовательность “%ЫЙ” — все слова, которые оканчиваются на “ЫЙ”.

Чтобы задать шаблон для получения выборки из списка базовых слов, нажмите кнопку “Выборка терминов”. На экране появится окно (рис. 65).

Рис. 65. Выборка из списка базовых слов

Независимый переключатель “Включить в режим выборки” позволяет включать или отключать режим выборки при отображении списка базовых слов. Если необходимо отобразить только выборку (а не все слова), то его необходимо перевести в активное состояние.

После чего в поле “Шаблон слова” можно задать шаблон или выбрать уже готовый из списка.

Нажмите “OK”, чтобы слова, удовлетворяющие шаблону, появились в списке базовых слов.

Обновление статистики.

В режиме “Словарь” имеется функция для получения статистических характеристик словаря:

– числа толкований (дефиниций) для каждого слова;

– числа эксцерпций для каждого слова;

– числа связанных со словом словоформ.

Чтобы получить эту информацию, необходимо нажать на кнопку “Статистика словаря”. После сбора необходимых данных на экране появится окно (рис. 66):         

Рис. 66. Статистика словаря

2.6. Режим “Дерево”

Режим “Дерево” служит для анализа семантического словаря. Система “Интерлекс” позволяет построить сетевую (древовидную) модель словаря на основе заголовочных слов, их дефиниций и эксцерпций. Такая древовидная структура устанавливает отношения между естественно-языковыми единицами словаря, а именно между базовыми словами. Другими словами, древовидная структура отношений представляет собой тезаурус.

Система “Интерлекс” позволяет построить тезаурус, который устанавливает отношения типа “определяющее-определяемое”.

“Определяемое” — это естественно-языковая единица (слово или словосочетание), которая является элементом генерального словника (т.е. базовым словом или словосочетанием).

“Определяющее” — это естественно-языковая единица (слово или словосочетание), которая входит в генеральный словник (т.е. является базовым словом или словосочетанием) и содержится хотя бы один раз в любой из дефиниций “определяемого”.

На рис. 67 приведена схема построения тезауруса “определяющее-определяемое” по семантическому словарю.

Рис. 67. Схема получения тезауруса “определяющее-определяемое”

Рассмотрим следующий пример. Пусть даны следующие варианты дефиниций слов:

ЧИСТЫЙ

1. Освобожденный от грязи, не имеющий грязи; противоп. грязный.

2. Нравственно безупречный, честный, правдивый, беспорочный.

3. С открытой, не занятой поверхностью.

4. ...

ВОДА

1. Прозрачная бесцветная жидкость, представляющая собой в чистом виде химическое соединение водорода и кислорода.

2. Водная поверхность — река, озеро, море и т.п., а также ее уровень.

3. Потоки, струи, волны.

4. Минеральные источники, курорт с такими источниками. лечиться на водах.

СИДЕТЬ

1. Находиться в положении, при котором туловище опирается на что-нибудь нижней своей частью.

2. Находиться в каком-нибудь месте, состоянии.

3. Иметь какую-нибудь осадку, углубляться в воду.

Тогда имеют место следующие отношения “определяющие-определяемое”:

ЧИСТЫЙ ® ВОДА ® СИДЕТЬ (см. выделенные слова).          

Для перехода в режим щелкните на закладку “Дерево”. Главное окно системы в этом случае примет вид (рис. 68):     

Рис. 68. Вид окна системы в режиме “Дерево”

В данном режиме доступны следующие функции:

Построить понятийное дерево (тезаурус).

Добавить в ветвь элемент (слово).

Удалить элемент (слово) из ветви.

Удалить всю ветвь.

Сделать выбранный термин в ветви текущим.

Перейти к предыдущему термину.

Построение графа дефиниций.

Анализ тезауруса.

Расчет коэффициентов неопределенности.

В списке на панели режимов отображаются связанные с текущим базовым словом слова и словосочетания. Этот список меняется в зависимости от значений двух фильтров, расположенных на той же панели режимов:

– тип дерева;

– термины.

Тип дерева имеет два значения: семантическое и ассоциативное. В первом случае “определяемые” слова берутся из семантического поля (дефиниций); во втором — из экземплярно-иллюстративного (эксцерпций).

Управляющий элемент “термины” позволяет выбрать направление “развертывания дерева”: “определяемые” слова относительно текущего базового или “определяющие” слова относительно текущего базового.

Оба этих фильтра служат только для ограничения выводимых в списке значений.

Построение понятийного дерева (тезауруса)

Чтобы построить понятийное дерево (тезаурус), необходимо иметь сформированный список базовых слов (генеральный словник) и их дефиниций и/или эксцерпции (см. “Режим “Словарь”).

Если семантический словарь готов, то нажмите на кнопку “Построить понятийное дерево”. На экране будет отображено (рис. 69):

Рис. 69. Построение понятийного дерева

Укажите, по каким полям семантического словаря нужно построить тезаурус. Если отмечено “По толкованиям базовых терминов”, то “определяемые” слова будут браться из семантического поля (дефиниций), если “По эксцерпциям базовых слов”, то из экземплярно-иллюстративного поля.

Нажмите “OK” и дождитесь окончания операции.

Пример 14    

Исходные данные:

Текстовый файл, содержащий 150 словарных статей словаря Ожегова (файл OZHEGANS.TXT поставляется с системой).

Задача:

Построить понятийное дерево (тезаурус “определяющее-определяемое”) на основе дефиниций.

Решение:

1. Импортируйте словарные статьи из файла OZHEGANS.TXT в систему (см. раздел “Импорт словарных статей”).

2. Перейдите в режим “Дерево” и нажмите кнопку “Построить понятийное дерево”.

3. Укажите только “ По толкованиям базовых терминов” (рис. 69).

4. Нажмите “OK”.

5. Дождитесь окончания операции.

6. Результат будет отображен в списке “связанные термины” на панели режимов. Необходимо отметить, что не все слова из генерального словника будут иметь “определяющие” и “определяемые” слова. Для этих слов список “связанных терминов” будет пуст.

7. Сопоставьте полученный результат, например, для слов “БОЛЬШОЙ”, “ВЗЯТЬ” и “ВИДЕТЬ”.

Добавить в ветвь элемент (базовое слово)

Несмотря на то что система “Интерлекс” имеет возможность автоматического построения понятийного дерева, иногда бывает необходимым подкорректировать результат “вручную”.

В системе “Интерлекс” предусмотрена возможность добавления новых слов (из списка базовых) в ветвь.

Чтобы воспользоваться этой функцией, необходимо выбрать текущее базовое слово (в списке базовых слов) и нажать на кнопку “Добавить термин в ветвь”. На экране появится окно (рис. 70):

Рис. 70. Добавление нового слова в ветвь для термина “ВОЕННЫЙ”

В окне “Добавить слово в ветвь” необходимо выполнить следующие действия:

– Выбрать добавляемое слово (словосочетание) из списка базовых слов. Для удобства поиска можно воспользоваться фильтром. Символ “%” означает любую последовательность символов. Символ “_” означает любой одиночный символ. Комбинация символов алфавита и этих знаков дает возможность легко ограничивать список выводимых слов. Например, шаблон “%ЫЙ” обеспечит отображение всех слов, оканчивающихся на “ЫЙ”, а шаблон “А__” — список всех трехбуквенных слов, начинающихся с буквы “А”.

– Указать тип слова (т.е. тип отношения). Необходимо указать, является ли добавляемое слово “определяющим” или “определяемым” по отношению к текущему.

– Указать тип дерева. Система “Интерлекс” позволяет работать с деревьями, построенными как по дефинициям (семантические деревья), так и по экземплярно-иллюстративным полям (ассоциативные деревья).

– Сила связи. В настоящей версии системы этот параметр не используется. Допускается произвольное значение.

После выполнения указанных установок нажмите “OK” и выбранное слово будет добавлено в выбранную ветвь. В зависимости от установок фильтров “Тип дерева” и “Термины” результат может быть уведен сразу, либо только после переустановки фильтров.

Удалить элемент (слово) из ветви.

Чтобы удалить некоторое слово из ветви, необходимо выбрать его и нажать кнопку “Удалить термин из ветви”. С помощью этой функции может быть удалено слово только из отображаемой ветви.

Перед удалением пользователь должен подтвердить выполнение операции (рис. 71):

Рис. 71. Удаление слова из ветви

Удалить всю ветвь

Если требуется удалить всю ветвь, необходимо отобразить ее (с помощью фильтров “Тип дерева” и “Термины”, а затем нажать кнопку “Удалить ветвь”.

Пользователь должен подтвердить выполнение операции (рис. 72):

Рис. 72. Удаление ветви

Навигация по дереву

Для удобства навигации по семантическому и ассоциативному дереву в системе “Интерлекс” предусмотрены две функции:

сделать выбранный термин (слово в ветви) текущим;

вернуться к слову, от которого был совершен переход предыдущей функцией.

Эти две функции работают по принципу FIFO. После применения первой функции слово, которое было текущим в списке “связанных слов”, становится текущим в списке базовых слов, а предыдущее слово из генерального словника запоминается. При следующем применении первой функции система будет уже помнить два слова и т.д. Вторая функция выполняет обратный переход (рис. 73).

Рис. 73. Навигация по дереву

Граф дефиниций

Важным функциональным свойством системы “Интерлекс” является возможность визуального представления семантических структур. Так, система может графически представить семантическое или ассоциативное деревья.

Для графического представления данных о семантическом или ассоциативном дереве нажмите кнопку “Граф дефиниций”. На экране появится окно (рис. 74):

Рис. 74. Способы визуализации

Система “Интерлекс” имеет возможность отображать в графическом виде разные виды деревьев и сетей, которые могут быть построены с помощью ее средств. Всего в системе различается 5 сетей:

– Простая семантическая сеть. Фактически это граф отношений “определяющее-определяемое” по дефинициям элементов генерального словника. Обычно в научной литературе этот термин имеет другое толкование.

– Простая ассоциативная сеть. Граф отношений “определяющее-определяющее” по экземплярно-иллюстративным полям. Обычно в научной литературе этот термин имеет другое толкование.

– Исключающая семантико-ассоциативная сеть. Наложение простой семантической и ассоциативной сетей друг на друга с использованием логической операции “И” (рис. 75):  

Рис. 75. Способ формирования исключающей семантико-ассоциативной сети

– Обобщающая семантико-ассоциативная сеть. Наложение простой семантической и ассоциативной сетей друг на друга с использованием логической операции “ИЛИ” (рис. 76).

Рис. 76. Способ формирования обобщающей семантико-ассоциативной сети

           

– Корреляционная сеть. Вид семантической сети, построенной на основе статистических характеристик естественно-языковых единиц (подробнее см. “Режим “Сеть””).

После выбора необходимого типа сети нажмите “OK”. На экране появится окно (рис. 77):           

Рис. 77. Визуальное представление семантической сети

В центре в желтом прямоугольнике отображается текущее базовое слово. В верхнем ряду отображаются в зависимости от типа тезауруса “определяющие” слова по отношению к базовому, а в нижнем ряду — “определяемые”. Использование функции визуализации упрощает навигацию по семантическому дереву (или сети). Достаточно щелкнуть мышью на белом прямоугольнике и это слово сделается базовым.

Кроме того, всегда есть возможность изменить тип отображаемой сети (кнопка “Тип тезаурусной сети” в левом верхнем углу окна).

Анализ тезауруса

Система “Интерлекс” имеет средства для анализа сформированных семантического или ассоциативного деревьев. В частности, интерес может представлять следующая информация:

– Является ли полученное семантическое (ассоциативное) дерево цельным (т.е. охватывающим все элементы генерального словника), или оно состоит из отдельных, не связанных поддеревьев, и сколько их?

– Является ли полученная структура действительно древовидной либо в ней присутствуют циклы? Какова средняя длина цикла?

На эти вопросы можно получить ответ, воспользовавшись средствами анализа тезаурусов системы “Интерлекс”. Система позволяет для указанного базового слова строить ареал, т.е. выделять всю совокупность слов, которые имеют связи с базовым. На рис. 78 схематично показана процедура построения ареала:

Рис. 78. Схема получения ареалов

Для построения ареала нажмите кнопку “Анализ тезауруса”. На экране появится окно (рис. 79).

Рис. 79. Построение ареала

В этом окне необходимо задать параметры построения ареала:

– вид сети (семантическая или ассоциативная)

– способ ориентации ребер графа дефиниций (т.е. графа отношений “определяющее-определяемое”)

– способ сохранения новых данных (объединять с уже существующими или удалить все перед началом операции)

Установку этих параметров можно выполнить с помощью независимых переключателей.

· Построить для семантической сети. Строится ареал для выбранного базового слова по семантической сети (дереву дефиниций).

· Построить для ассоциативной сети. Строится ареал для выбранного базового слова по ассоциативной сети (дереву по экземплярно-иллюстративным полям).

Если выбраны оба параметра, то строится ареал по обобщающей семантико-ассоциативной сети.

· Метод “обхода” графа тезауруса. По направлению ребра. Ареал строится на основе графа, в котором ребра направлены от “определяющих” слов к “определяемым” (например, см. рис. 77).

· Метод “обхода” графа тезауруса. Против направления ребра. Ареал строится на основе графа, в котором ребра направлены от “определяемых” слов к “определяющим”. Ориентация ребер графа меняется на противоположную.

Если выбраны оба способа, то считается, что граф не является ориентированным, и ареал строится без учета направления ребер. Учитывается только наличие какой-либо связи.

· Выполнить полную инициализацию таблицу. Если данный переключатель установлен, то перед началом операции все данные из таблицы, содержащей информацию об ареалах, будут удалены. В противном случае, новая информация будет добавлена к уже имеющейся.

Переключатели “Построить для нормальных связей” и “Построить для сильных связей” в настоящей версии системы не используются и должны быть всегда включены.

После выполнения всех установок нажмите кнопку “Продолжить”, дождитесь окончания операции, на экране появится окно (рис. 80):

Рис. 80. Ареал термина

В этом окне отображается весь ареал выбранного базового слова в соответствии с установленными параметрами.

В таблице “элементы кластера” отображаются все естественно-языковые единицы генерального словника, которые вошли в ареал. Пользователь может выбрать способ сортировки этих слов с помощью переключателей:

– в алфавитном порядке;

– по возрастанию расстояния;

– по убыванию расстояния.

Под расстоянием понимается минимальное число шагов по графу дефиниций, которое необходимо совершить, чтобы добраться от базового слова к слову из ареала этого базового слова. Считается, что расстояние базового слова до самого себя равно 0, до всех слов, которые являются непосредственно “определяющими” или “определяемыми” = 1, и т.д.

Используя панель навигации, можно просмотреть ареалы для других базовых слов, которые были построены ранее (это имеет смысл, если при построении ареала не был установлен переключатель “выполнить полную инициализацию таблицы”, в противном случае для всех других базовых слов ареалы будут пусты).

Таблица, в которой сохраняются данные об ареалах базовых терминов, называется “DICTCLST.DB”, расположенной в каталоге “DATA” относительно установочного каталога системы “Интерлекс”.

Формат таблицы “dictclst.db”

Таблица “dictclst.db” имеет следующую структуру:

BaseKey. Идентификатор базового слова, для которого строится ареал. Ссылка на таблицу “dictkey.db”.

RecordID. Порядковый номер записи внутри ареала. Уникален внутри ареала.

KeywordID. Идентификатор слова из генерального словника, которое является элементом ареала базового слова (BaseKey). Ссылка на таблицу “dictkey.db”.

MinLen. Минимальное расстояние от базового слова до элемента ареала.

Для получения копии этой таблицы в виде, удобном для чтения, выполните c помощью утилиты DBD32 следующий SQL-запроc:

select A.Keyword, C.Keyword, B.MinLen

from ‘dictclst.db’ B, ‘dictkey.db’ A, ‘dictkey.db’ C

where A.RecordID=B.BaseKey AND

C.RecordID=B.KeywordID

order by B.MinLen;

Результат выполнения этого запроса представлен на рис. 81:

Рис. 81. Таблица ареалов для базовых слов

Расчет “коэффициентов определенности”

Еще одним способом анализа тезауруса отношений “определяющее-определяемое” является вычисление “коэффициентов определенности”.

Сначала рассмотрим фрагмент семантического дерева (рис. 82):

Рис. 82. Фрагмент семантического дерева

На приведенном выше фрагменте семантического дерева выведены два термина:

– дескрипторы;

– определения.

Дескрипторами в данном контексте будем называть совокупность всех “определяющих” слова для некоторого базового.

Определениями в данном контексте будем называть совокупность всех слов, для которых дескрипторы некоторого базового слова являются “определяющими”.

Система “Интерлекс” позволяет определять число дескрипторов и число определений для всех естественно-языковых единиц генерального словника на основе уже сформированного тезауруса “определяющее-определяемое”.

“Коэффициентом определенности” будем называть числовую величину, равную отношению числа определений к числу дескрипторов. Физический смысл этой величины заключается в следующем:

Примем гипотезу о том, что семантическое значение некоторого термина (базового слова) тем точнее определено, чем меньше существует других терминов, которые имеют те же дескрипторы. Другими словами, термин “абсолютно определен”, если его дескрипторы не являются дескрипторами ни для какого другого термина.

Значение “коэффициента определенности” тем больше, чем “менее точно” определен термин, т.е. число определений больше числа дескрипторов. Минимальное значение “коэффициента определенности” равно 1. Это значит, что для каждого дескриптора базового слова существует одно и только одно “определяемое” — само базовое слово. 

Чтобы вычислить значения “коэффициента определенности” для всех базовых слов, нажмите кнопку “Расчет коэффициентов определенности”. На экране появится окно (рис. 83):

Рис. 83. Фрагмент семантического дерева

Система “Интерлекс” имеет возможность вычислять “коэффициент определенности” как по семантической сети (тезаурусу “определяющее-определяемое”), так и по ассоциативной (сети по экземплярно-иллюстративным полям). В окне (рис. 83) необходимо отметить сеть, по которой будет рассчитан коэффициент. Если отметить обе позиции, то коэффициент будет рассчитан по обобщающей семантико-ассоциативной сети.

Нажмите “Продолжить” и дождитесь окончания операции. На экране появится окно (рис. 84):    

Рис. 84. “Коэффициент определенности”

Информация о “коэффициентах определенности” сохраняется в таблице с именем “DICTDEF.DB”, расположенной в каталоге DATA.

Формат таблицы “dictdef.db”    

Таблица “dictdef.db” имеет следующий формат:

– KeywordID. Идентификатор базового слова из генерального словника (ссылка на таблицу “dictkey.db”).

– Masters. Число дескрипторов.

– ChildSum. Число определений.

– AveFactor. Значение “коэффициента определенности”.

Для представления таблицы в виде, удобном для чтения с помощью утилиты DBD32, выполните следующий SQL-запрос:

select Keyword, Masters, ChildSum, AveFactor

from ‘dictkey.db’, ‘dictdef.db’

where KeywordId=RecordID order by Keyword

Пример выполнения этого запроса приведен на рис. 85:         

Рис. 85. Пример выполнения запроса по таблице “коэффициентов определенности”

2.7. Режим “Сеть”

Система “Интерлекс” включает в себя инструментарий для статистического анализа естественно-языкового описания предметной области. В частности, пользователь имеет возможность воспользоваться одним из вариантов дистрибутивно-статистического метода для установления семантических отношений между естественно-языковыми единицами в тексте.

Под дистрибутивно-статистическими методами понимается совокупность формальных преобразований статистической (частотной) информации о естественно-языковых единицах, на основании результатов которых можно установить факт наличия связи между ЕЯ единицами. Прямого перехода от чисто количественной характеристики к интерпретации отношений на семантическом уровне конечно нет, однако для ряда предметных областей наличие формальной связи характеризуется, как правило, наличием не только синтаксического, но и семантического отношения между ЕЯ единицами.

В системе “Интерлекс” использован метод, основанный на расчете корреляционного отношения и коэффициента корреляции. Другими словами, формальной мерой “связанности” (не обязательно семантической) ЕЯ единиц являются статистические параметры корреляционного отношения и коэффициента корреляции.

Использование корреляционного (ВКО) отношения дает следующие преимущества, вытекающие из его свойств:

– 0 ВКО 1

– ВКО не зависит от вида связи между двумя исследуемыми статистическими характеристиками ЕЯ единиц.

– Не ассоциативен, т.е. ВКО (A, B) ВКО (B, A) в общем случае.

В дополнение к этой характеристике система “Интерлекс” рассчитывает коэффициент корреляции (ВКК), характеризующийся следующим:

– -1 ВКК 1

– Позволяет фиксировать только линейные отношения между статистическими характеристиками ЕЯ единиц.

– Обладает свойством ассоциативности, т.е. ВКК(A, B) = =BКК (B, A).

Если принять гипотезу о том, что указанные формальные характеристики так или иначе характеризуют семантические отношения между естественно-языковыми единицами, то можно говорить о корреляционной семантической сети (или просто семантической сети). Эта структура (в отличие от рассмотренной в предыдущем разделе) не является древовидной. Основные отличия семантической сети от cемантического дерева (тезауруса “определяющее-определяющее”) следующие:

– семантическая сеть троится на основе исходного текста по частотным характеристикам ЕЯ единиц, а не на их дефиниций или эксцерпций.

– Связь между любыми двумя ЕЯ единицами в семантической сети характеризуется двумя формальными значениями (ВКО и ВКК)

– Связь может интерпретироваться как синтаксическое, так и как семантическое отношение (не только как “определяющее-определяемое”)

– Фактическое лингвистическое или экстралингвистическое отношение не устанавливается, а фиксируется только возможность наличия такой связи.

На рис. 86 приведена схема формирования семантической сети:

Рис. 86. Схема формирования семантической сети

Для перехода в режим “Сеть” щелкните на одноименной закладке в главном окне. При этом главное окно примет вид (рис. 87):

 

Рис. 87. Режим “Сеть”

В данном режиме доступны следующие функции:

Построить корреляционную сеть.

Вычислить корреляционное отношение.

Графическое представление семантической сети.

Построение семантических ареалов.

Построение корреляционной семантической сети

Чтобы построить корреляционную семантическую сеть по исходному тексту, необходимо:

– сформировать по исходному тексту генеральный словник (см. разделы “Режим “Словоформы””, “Режим “Словарь”);

– перейти в режим “Сеть” и нажать кнопку “Построить корреляционную сеть”.

На экране появится окно (рис. 88):           

Рис. 88. Построение корреляционной сети

Укажите имя исходного текста, по которому будет строиться корреляционная семантическая сеть.

Если данная операция уже ранее выполнялась и требуется объединить данные, уже хранящиеся в базе данных с новыми, то необходимо установить переключатель “Учитывать занесенные в корреляционную таблицу данные”.

Необходимо также задать кодировку исходного текста или позволить системе сделать это автоматически.

После выполненных установок нажмите кнопку “Загрузка” и дождитесь окончания операции.

Если операция завершилась успешно, то на экран будет выведено сообщение (рис. 89):

Рис. 89. Завершение операции построения корреляционной сети

Это сообщение означает, что система собрала всю необходимую статистику о частотах естественно-языковых единиц исходного текста и готова к расчету основных характеристик корреляционной сети: корреляционного отношения (ВКО) и коэффициента корреляции (ВКК). Нажмите “OK”, и на экран будет выведено следующее сообщение (рис. 90):

Рис. 90. Пересчет характеристик корреляционной сети

Если необходимо провести расчет характеристик корреляционной сети немедленно, то следует ответить “Yes” (см. “Расчет корреляционного отношения”, стр. 110). Если эту операции Вы планируете выполнить позднее, то выберите ответ “No”.

Расчет корреляционного отношения

Функция вычисления корреляционных отношений и коэффициентов корреляции непосредственно связана с предыдущей и должна выполняться после выполнения построения корреляционной семантической сети.

Система “Интерлекс” вычисляет искомые корреляционные отношения и коэффициенты корреляции по корреляционным матрицам, т.е. статистике, собранной по естественно-языковым единицам исходного текста.

Чтобы выполнить расчет (или обновить) корреляционные отношения и коэффициенты корреляции, нажмите на кнопку “Расчет корреляционных отношений” и дождитесь окончания операции.

Экран примет вид (рис. 91):          

Рис. 91. Расчет ВКО и ВКК

Система “Интерлекс” представляет результат в следующем виде:

– в таблице на панели режимов отображаются элементы генерального словника, непосредственно связанные с текущим базовым словом. Другими словами, для базового слова и любого слова из списка можно определить ненулевое ВКО;

– таблица непосредственно связанных слов состоит из следующих столбцов: ВКО (корреляционное отношение), ВКК (коэффициент корреляции) и “Число значений”.

– Параметр “Число значений” позволяет оценить точность вычисления ВКО и ВКК. Он показывает число ненулевых значений в корреляционной матрице, образовавшейся при сборе статистики для текущего базового слова и соответствующего слова из списка связанных слов. Естественно, что чем больше значение параметра “Число значений”, тем больше вероятность, что полученные значения ВКО и ВКК не являются смещенными.

Для удобства просмотра результатов система “Интерлекс” имеет фильтр по “Числу значений”. Изменяя этот фильтр, можно отбрасывать связи, для которых число значений, т.е. объем собранной статистики, слишком мало.  

Графическое представление семантической сети

Система “Интерлекс” имеет функцию визуального представления семантической сети, а также навигации по ней.

Нажмите кнопку “Граф дефиниций” и на экране появится окно (рис. 92):

Рис. 92. Визуализация корреляционной семантической сети

Для визуализации корреляционной семантической сети необходимо установить в соответствующее положение и указать минимальные параметры “Число точек” (т.е. число значений в корреляционной матрице) и ВКО. Все связи, для которых хотя бы один из параметров окажется меньше, будут проигнорированы.

Нажмите “OK”, и на экране появится окно (рис. 93).    

Рис. 93. Вид корреляционной семантической сети

В центре, в желтом прямоугольнике, отображается текущее базовое слово. В верхнем ряду отображаются слова, которые связаны с базовым, а в нижнем ряду — слова, с которыми связано базовое слово (свойство неассоциативности ВКО в общем случае). Использование функции визуализации упрощает навигацию по семантической сети. Достаточно щелкнуть мышью на белом прямоугольнике и это слово сделается базовым.

Необходимо отметить, что на связях не отображаются значения ВКО, ВКК и “Числа значений”. Считается, что если связь отображена, то значения ВКО и “Числа значений” не меньше заданных в окне параметров (рис. 91).

Все данные о корреляционной семантической сети хранятся в таблице “DICTCORR.DB” в каталоге DATA.

Формат таблицы “dictcorr.db”

Таблица “dictcorr.db” имеет следующую структуру:

– MasterID — идентификатор слова, от которого устанавливается связь (ссылка на таблицу “dictkey.db”);

– SlaveID — идентификатор слова к которому устанавливается связь (ссылка на таблицу “dictkey.db”);

– Rxy — величина корреляционного отношения;

– Kv — величина коэффициента корреляции;

– ValCount — число значений в корреляционной матрице.

Для представления таблицы в виде, удобном для чтения, можно выполнить следующий SQL-запрос:

select A.Keyword, B.Keyword, Rxy, Kv, ValCount

from ‘dictkey.db’ A, ‘dictkey.db’ B, ‘dictcorr.db’

where A.RecordID=MasterID AND B.RecordID=SlaveID

            order by ValCount DESC,Rxy DESC

Для его выполнения можно воспользоваться утилитой DBD32. На рис. 94 приведен результат выполнения этого запроса:           

Рис. 94. Результат выполнения SQL-запроса по таблице “dictcorr.db”

Пример 15

Исходные данные:

Текстовый файл, содержащий 150 словарных статей словаря Ожегова (файл OZHEGANS.TXT поставляется с системой).

Задача:

Построить корреляционную семантическую сеть.

Решение:

8. Импортируйте словарные статьи из файла OZHEGANS.TXT в систему (см. раздел “Импорт словарных статей”, стр. 74).

9. Перейдите в режим “Сеть” и нажмите кнопку “Построение корреляционной семантической сети”.

10. Укажите файл “OZEGANS.TXT”. Переключатели “Учитывать занесенные в корреляционную таблицу данные” и “Кодировка текста” оставить установленными по умолчанию.

11. Нажмите “OK”.

12. Дождитесь окончания операции. На вопрос “Вы хотите пересчитать коэффициенты?” следует ответить положительно.

13. Результат будет отображен в списке слов на панели режимов. Возможно, не все слова из генерального словника будут иметь связи. Это значит, что корреляционное отношение между этим словом и любыми другими из этого же генерального словника равно 0 (исходя из их частотных характеристик анализируемого текста).

14. Запустите утилиту DBD32 и выполните в ней SQL-запрос (см. “Формат таблицы “dictcorr.db””).

15. Перенесите полученный результат в MS Word или в MS Excel для оформления. Фрагмент семантической сети (в табличном виде) представлен в табл. 17. Данные в таблице представлены по убыванию числа значений (V) в соответствующих корреляционных матрицах.

16. Обратите внимание на термины, частоты которых сильно коррелируют между собой (например, “ГОВОРИТЬ-ДЕЛАТЬ”, “РУКА-ДЕЛАТЬ”, “НАЧАТЬ-ДЕЛАТЬ”, “РАБОТА-ТРУД” и т.п.).

Таблица 17

Термин 1

Термин 2

ВKО

ВK

V

1

ДЕЛАТЬ

РАБОТА

0,663

0,058

12

2

РАБОТА

ДЕЛАТЬ

0,306

0,058

12

3

ДЕЛАТЬ

ЧЕЛОВЕK

0,511

0,21

10

4

ДЕЛАТЬ

МЕСТО

0,414

0,04

10

5

МЕСТО

ДЕЛАТЬ

0,371

0,04

10

6

ЧЕЛОВЕKК

ДЕЛАТЬ

0,31

0,21

10

7

РАБОТА

ЧЕЛОВЕKК

0,937

0,056

9

8

РАБОТА

ДРУГ

0,509

0,299

9

9

ДЕЛАТЬ

СДЕЛАТЬ

0,423

0,234

9

10

ДРУГ

РАБОТА

0,404

0,299

9

11

СДЕЛАТЬ

ДЕЛАТЬ

0,29

0,234

9

12

ЧЕЛОВЕK

РАБОТА

0,12

0,056

9

13

ДЕЛАТЬ

ПОСТУПИТЬ

0,93

0,078

8

14

ДРУГ

ОН

0,849

0,272

8

15

ДЕЛАТЬ

ХОРОШИЙ

0,809

0,197

8

16

ВИДЕТЬ

ДЕЛАТЬ

0,795

0,433

8

17

РУKА

ДЕЛАТЬ

0,77

0,145

8

18

ДЕЛАТЬ

ОН

0,636

0,227

8

19

РАБОТА

РУKА

0,551

0,249

8

20

ДЕЛАТЬ

ВИДЕТЬ

0,505

0,433

8

21

ЧЕЛОВЕK

ДРУГ

0,426

0,277

8

22

РУKА

РАБОТА

0,40

0,249

8

23

ИДТИ

ДЕЛАТЬ

0,381

0,201

8

24

ДЕЛАТЬ

ИДТИ

0,353

0,201

8

25

ОН

ДРУГ

0,298

0,272

8

26

ДРУГ

ЧЕЛОВЕKК

0,297

0,277

8

27

ОН

ДЕЛАТЬ

0,271

0,227

8

28

ДЕЛАТЬ

РУKА

0,262

0,145

8

29

ХОРОШИЙ

ДЕЛАТЬ

0,223

0,197

8

30

ПОСТУПИТЬ

ДЕЛАТЬ

0,208

0,078

8

31

РУKА

РУKА

1,00

1,00

7

32

ГОВОРИТЬ

ГОВОРИТЬ

1,00

1,00

7

33

ДЕЛАТЬ

ДАТЬ

0,997

0,688

7

34

ГОВОРИТЬ

ДЕЛАТЬ

0,931

0,187

7

35

ДАТЬ

ДЕЛАТЬ

0,74

0,688

7

36

НОВЫЙ

ДЕЛАТЬ

0,729

0,407

7

37

ДЕЛАТЬ

НОВЫЙ

0,58

0,407

7

38

ДРУГ

ИДТИ

0,563

0,426

7

39

ИДТИ

ДРУГ

0,563

0,426

7

40

ОН

ЧЕЛОВЕK

0,516

0,286

7

41

ДЕЛАТЬ

ГОВОРИТЬ

0,484

0,187

7

42

ДЕЛАТЬ

ГОРОД

0,456

0,16

7

43

ПРОСТОЙ

ДЕЛАТЬ

0,432

0,304

7

44

ВОДА

ДЕЛАТЬ

0,418

0,055

7

45

ДЕЛАТЬ

ЖИЗНЬ

0,326

0,043

7

46

ДЕЛАТЬ

ВОДА

0,321

0,055

7

47

ЖИЗНЬ

ДЕЛАТЬ

0,319

0,043

7

48

ДЕЛАТЬ

ПРОСТОЙ

0,314

0,304

7

49

ЧЕЛОВЕK

ОН

0,313

0,286

7

50

ГОРОД

ДЕЛАТЬ

0,16

0,16

7

51

ДРУГ

ДРУГ

1,00

1,00

6

52

РАБОТА

РАБОТА

1,00

1,00

6

53

ДЕЛАТЬ

ДЕЛАТЬ

1,00

1,00

6

54

РАБОТА

ТРУД

0,997

0,129

6

55

ТРУД

РАБОТА

0,989

0,129

6

56

ТРУД

РУKА

0,949

0,465

6

57

НАЧАТЬ

ДЕЛАТЬ

0,88

0,698

6

58

РУKА

ТРУД

0,801

0,465

6

59

РАБОТА

ПОСТУПИТЬ

0,80

0,274

6

60

ЧЕЛОВЕKК

ХОРОШИЙ

0,799

0,138

6

61

ДЕЛАТЬ

НАЧАТЬ

0,791

0,698

6

62

РАБОТА

ХОРОШИЙ

0,731

0,493

6

63

ИДТИ

РАБОТА

0,692

0,121

6

64

ПРОСТОЙ

ЖИЗНЬ

0,674

0,125

6

65

ДЕЛАТЬ

ТРУД

0,647

0,573

6

66

РУKА

ПРОСТОЙ

0,632

0,383

6

67

ХОРОШИЙ

РАБОТА

0,626

0,493

6

68

ДЕЛАТЬ

ЧАС

0,62

0,308

6

69

ТРУД

ДЕЛАТЬ

0,591

0,573

6

70

СТОРОНА

ДЕЛАТЬ

0,586

0,172

6

71

ЧЕЛОВЕKК

ВОДА

0,572

0,386

6

72

ДРУГ

ПРОСТОЙ

0,569

0,305

6

73

ДЕЛАТЬ

ЭТО

0,535

0,417

6

74

ДЕЛАТЬ

ДРУГ

0,514

0,079

6

75

ДЕЛАТЬ

СТОРОНА

0,485

0,172

6

76

ВОДА

ЧЕЛОВЕK

0,471

0,386

6

77

МЕСТО

ЧЕЛОВЕKК

0,423

0,147

6

78

ЭТО

ДЕЛАТЬ

0,417

0,417

6

79

ДЕЛАТЬ

ПЕРЕДАТЬ

0,404

0,228

6

80

ЧАС

ДЕЛАТЬ

0,39

0,308

6

81

ПРОСТОЙ

РУKА

0,383

0,383

6

82

ПРОСТОЙ

ДРУГ

0,379

0,305

6

83

ПЕРЕДАТЬ

ДЕЛАТЬ

0,367

0,228

6

84

ПОСТУПИТЬ

РАБОТА

0,353

0,274

6

85

ЖИЗНЬ

ПРОСТОЙ

0,31

0,125

6

86

РАБОТА

СОВЕТСKИЙ

0,304

0,139

6

87

ЧЕЛОВЕK

СОВЕТСKИЙ

0,279

0,194

6

88

НОВЫЙ

ИДТИ

0,278

0,201

6

89

СОВЕТСKИЙ

ЧЕЛОВЕKК

0,262

0,194

6

90

ХОРОШИЙ

ЧЕЛОВЕKК

0,239

0,138

6

91

ИДТИ

НОВЫЙ

0,227

0,201

6

92

СОВЕТСKИЙ

РАБОТА

0,187

0,139

6

93

ЧЕЛОВЕKК

МЕСТО

0,184

0,147

6

94

РАБОТА

ИДТИ

0,121

0,121

6

95

ДРУГ

ДЕЛАТЬ

0,087

0,079

6

96

ГОВОРИТЬ

ЧЕЛОВЕKК

1,00

0,772

5

97

ГОВОРИТЬ

ИДТИ

1,00

0,86

5

98

ХОРОШИЙ

ХОРОШИЙ

1,00

0,999

5

99

РУKА

СДЕЛАТЬ

1,00

0,766

5

100

ЖИЗНЬ

ЖИЗНЬ

1,00

1,00

5

101

ВИДЕТЬ

ВИДЕТЬ

1,00

1,00

5

102

ДАТЬ

ДАТЬ

1,00

1,00

5

103

РАБОТА

РАБОЧИЙ

1,00

0,316

5

104

ИДТИ

ИДТИ

1,00

1,00

5

105

ЧАС

ХОРОШИЙ

0,998

0,203

5

106

РАБОЧИЙ

РАБОТА

0,996

0,316

5

107

СЕСТЬ

ДЕЛАТЬ

0,995

0,23

5

108

ПЕРЕДАТЬ

ДАТЬ

0,986

0,65

5

109

ЧЕЛОВЕKК

ПРОСТОЙ

0,972

0,202

5

110

РАБОТА

БОЛЬШОЙ

0,95

0,217

5

111

ЧЕЛОВЕK

РУKА

0,93

0,875

5

112

ЖИЗНЬ

ЧЕЛОВЕKК

0,899

0,33

5

113

НОВЫЙ

ЧЕЛОВЕKК

0,895

0,323

5

114

РУKА

ЧЕЛОВЕKК

0,893

0,875

5

115

ИДТИ

ГОВОРИТЬ

0,86

0,86

5

116

ТОЧKА

ДЕЛАТЬ

0,84

0,546

5

117

ВИДЕТЬ

ПРОСТОЙ

0,802

0,136

5

118

ДРУГ

НОВЫЙ

0,801

0,071

5

119

ДРУГ

ХОРОШИЙ

0,79

0,223

5

120

ГОЛОВА

ДЕЛАТЬ

0,784

0,165

5

121

ЧЕЛОВЕKК

ГОВОРИТЬ

0,772

0,772

5

122

СДЕЛАТЬ

РУKА

0,766

0,766

5

123

ДАТЬ

ПЕРЕДАТЬ

0,751

0,65

5

124

СТОРОНА

ЧЕЛОВЕKК

0,749

0,456

5

125

СЕСТЬ

РАБОТА

0,707

0,421

5

126

ХОРОШИЙ

ВИДЕТЬ

0,706

0,218

5

127

ДЕЛАТЬ

СЕСТЬ

0,676

0,23

5

128

ЧЕЛОВЕKК

ЭТО

0,661

0,065

5

129

ДРУГ

СТАРЫЙ

0,654

0,266

5

130

ДЕЛАТЬ

ТОЧKА

0,65

0,546

5

131

ЧЕЛОВЕKК

НОВЫЙ

0,622

0,323

5

132

ОН

ИДТИ

0,618

0,197

5

133

ВИДЕТЬ

ПЛОХОЙ

0,612

0,509

5

134

ДАТЬ

ОН

0,612

0,283

5

135

ХОРОШИЙ

ПРОСТОЙ

0,612

0,269

5

136

ДЕЛАТЬ

ПРИЙТИ

0,612

0,345

5

137

ДЕЛАТЬ

ГОЛОВА

0,602

0,165

5

138

ДРУГ

ЗЕМЛЯ

0,581

0,531

5

139

ЗЕМЛЯ

ДРУГ

0,534

0,531

5

140

ЧЕЛОВЕK

РАБОЧИЙ

0,527

0,203

5

141

БОЛЬШОЙ

ЧЕЛОВЕKК

0,522

0,452

5

142

ПЛОХОЙ

ВИДЕТЬ

0,509

0,509

5

143

ЧЕЛОВЕKК

БОЛЬШОЙ

0,50

0,452

5

144

ПРОСТОЙ

ЧЕЛОВЕKК

0,487

0,202

5

145

ДЕЛАТЬ

БОЛЬШОЙ

0,487

0,297

5

146

БОЛЬШОЙ

ДЕЛАТЬ

0,474

0,297

5

147

ЧЕЛОВЕKК

ИДТИ

0,469

0,05

5

148

ВИДЕТЬ

НОВЫЙ

0,462

0,394

5

149

ГОРОД

НОВЫЙ

0,462

0,428

5

150

НОВЫЙ

ГОРОД

0,462

0,428

5

151

ЧЕЛОВЕKК

СТОРОНА

0,456

0,456

5

152

НОВЫЙ

ВИДЕТЬ

0,426

0,394

153

РАБОТА

СЕСТЬ

0,421

0,421

5

154

ПРОСТОЙ

ПОМОЩЬ

0,416

0,277

5

155

ЧЕЛОВЕK

ЖИЗНЬ

0,412

0,33

5

156

СТАРЫЙ

ДРУГ

0,406

0,266

5

157

ХОРОШИЙ

ЧАС

0,397

0,203

5

158

РАБОТА

ЭТО

0,377

0,283

5

159

ИДТИ

ОН

0,372

0,197

5

160

ИДТИ

ЧЕЛОВЕK

0,354

0,05

5

161

НОВЫЙ

МЕСТО

0,353

0,245

5

162

ПРИЙТИ

ДЕЛАТЬ

0,345

0,345

5

163

НОВЫЙ

ДРУГ

0,327

0,071

5

164

ТРУД

ЧЕЛОВЕK

0,318

0,248

5

165

ВИДЕТЬ

ХОРОШИЙ

0,309

0,218

5

166

РАБОЧИЙ

ЧЕЛОВЕKК

0,304

0,203

5

167

ЧЕЛОВЕK

ТРУД

0,294

0,248

5

168

ОН

РАБОТА

0,288

0,128

5

169

ОН

ДАТЬ

0,283

0,283

5

170

ЭТО

РАБОТА

0,283

0,283

5

171

ПОМОЩЬ

ПРОСТОЙ

0,277

0,277

5

172

ПРОСТОЙ

ХОРОШИЙ

0,269

0,269

5

173

БОЛЬШОЙ

РАБОТА

0,266

0,217

5

174

МЕСТО

НОВЫЙ

0,253

0,245

5

175

ХОРОШИЙ

ДРУГ

0,25

0,223

5

176

ВИДЕТЬ

ЧЕЛОВЕK

0,249

0,175

5

177

ПРОСТОЙ

ВИДЕТЬ

0,204

0,136

5

178

ЧЕЛОВЕKК

ВИДЕТЬ

0,175

0,175

5

179

РАБОТА

МЕСТО

0,145

0,118

5

180

МЕСТО

РАБОТА

0,131

0,118

5

181

РАБОТА

ОН

0,128

0,128

5

182

ЭТО

ЧЕЛОВЕKК

0,065

0,065

5

183

НОВЫЙ

НОВЫЙ

1,00

1,00

4

184

НОВЫЙ

НАЧАТЬ

1,00

0,93

4

185

ДАТЬ

ИДТИ

1,00

0,332

4

186

ЗДОРОВЬЕ

ЗДОРОВЬЕ

1,00

1,00

4

187

ГОВОРИТЬ

НОВЫЙ

1,00

0,801

4

188

ДЕЛАТЬ

ДОБРЫЙ

1,00

0,451

4

189

ДЕЛАТЬ

KОМНАТА

1,00

0,036

4

190

ЧЕЛОВЕKК

ЧЕЛОВЕKК

1,00

1,00

4

191

РУKА

ВЗЯТЬ

1,00

0,966

4

192

ВЗЯТЬ

ВЗЯТЬ

1,00

0,999

4

193

ДРУГ

СТОРОНА

1,00

0,726

4

194

ДАТЬ

МЕСТО

1,00

0,131

4

195

ПРОСТОЙ

ПРОСТОЙ

1,00

1,00

4

196

ГОЛОВА

ГОЛОВА

1,00

1,00

4

197

ХОРОШИЙ

БОЛЬШОЙ

1,00

0,715

4

198

ГОВОРИТЬ

БОЛЬШОЙ

1,00

0,238

4

199

СЕСТЬ

СЕСТЬ

1,00

1,00

4

200

ДРУГ

МЕСТО

1,00

0,894

4

201

ТРУД

ТРУД

1,00

1,00

4

202

БОЛЬШОЙ

БОЛЬШОЙ

1,00

1,00

4

203

СТОРОНА

ДРУГ

1,00

0,726

4

204

ДРУГ

ДОРОГОЙ

1,00

0,992

4

205

ЧИСТЫЙ

ЧИСТЫЙ

1,00

1,00

4

206

НАЧАТЬ

НАЧАТЬ

1,00

1,00

4

207

СТОРОНА

СТОРОНА

1,00

1,00

4

208

ДАТЬ

ПИТЬ

1,00

0,938

4

209

ЗДОРОВЬЕ

ЧЕЛОВЕK

1,00

0,169

4

210

НОВЫЙ

ОН

1,00

0,697

4

211

МЕСТО

МЕСТО

1,00

1,00

4

212

ВОДА

ВОДА

1,00

1,00

4

213

ХОРОШИЙ

ОН

1,00

0,09

4

214

РАБОТА

ПРОВЕСТИ

1,00

0,266

4

215

ЧАС

ЧАС

1,00

1,00

4

216

РУKА

ГОВОРИТЬ

1,00

0,031

4

217

ПРОСТОЙ

ГЛАЗ

1,00

0,242

4

218

РУKА

ЭТО

1,00

0,903

4

219

ГОРОД

ИДТИ

0,999

0,794

4

220

ДОРОГОЙ

ДРУГ

0,998

0,992

4

221

РАБОТА

ЧАС

0,998

0,154

4

222

ВЗЯТЬ

РУКА

0,997

0,966

4

223

РАБОТА

ПРОСТОЙ

0,996

0,935

4

224

ДРУГ

ЛЮДИ

0,996

0,786

4

225

РАБОТА

РАЗГОВОР

0,99

0,97

4

226

ГОВОРИТЬ

РУКА

0,989

0,031

4

227

ИДТИ

ГОЛОВА

0,989

0,385

4

228

РАЗГОВОР

РАБОТА

0,986

0,97

4

229

НАЧАТЬ

НОВЫЙ

0,986

0,93

4

230

ПИТЬ

ДАТЬ

0,984

0,938

4

231

РАБОТА

СТОРОНА

0,983

0,148

4

232

СКАЗАТЬ

ГОВОРИТЬ

0,962

0,785

4

233

РУКА

ВИДЕТЬ

0,959

0,268

4

234

НОВЫЙ

СТОРОНА

0,949

0,176

4

235

ПРОСТОЙ

РАБОТА

0,946

0,935

4

236

ДЕЛАТЬ

ПЛОХОЙ

0,942

0,368

4

237

ИДТИ

ЖИЗНЬ

0,925

0,318

4

238

ВОДА

МЕСТО

0,904

0,465

4

239

ЧЕЛОВЕК

СДЕЛАТЬ

0,904

0,09

4

240

ПОЛНЫЙ

ДЕЛАТЬ

0,904

0,476

4

241

ГОВОРИТЬ

НАЧАТЬ

0,904

0,246

4

242

ЭТО

РУКА

0,903

0,903

4

243

МЕСТО

ДРУГ

0,894

0,894

4

244

ВИДЕТЬ

ЖИЗНЬ

0,892

0,76

4

245

ДОБРЫЙ

РАБОТА

0,872

0,571

4

246

ЛЮДИ

ДРУГ

0,866

0,786

4

247

ИДТИ

ГОРОД

0,836

0,794

4

248

ГОВОРИТЬ

СКАЗАТЬ

0,816

0,785

4

249

НОВЫЙ

ГОВОРИТЬ

0,801

0,801

4

250

ЖИЗНЬ

ВИДЕТЬ

0,76

0,76

4

251

ОН

НОВЫЙ

0,73

0,697

4

252

БОЛЬШОЙ

ХОРОШИЙ

0,715

0,715

4

253

ЖИЗНЬ

ВОДА

0,707

0,301

4

254

ГОЛОВА

РАБОТА

0,707

0,457

4

255

ДРУГ

СKАЗАТЬ

0,707

0,14

4

256

ДОБРЫЙ

ПОСТУПИТЬ

0,707

0,554

4

257

ДОБРЫЙ

ЧЕЛОВЕKК

0,672

0,417

4

258

СТОРОНА

ОН

0,666

0,298

4

259

ЛЮДИ

ЧЕЛОВЕKК

0,666

0,453

4

260

СОВЕТСKИЙ

ОН

0,666

0,347

4

261

ИДТИ

ХОРОШИЙ

0,666

0,606

4

262

ГОРОД

ХОРОШИЙ

0,661

0,00

4

263

РАЗГОВОР

ЧЕЛОВЕK

0,661

0,598

4

264

МЕСТО

ИДТИ

0,654

0,113

4

265

РАБОТА

ДОБРЫЙ

0,654

0,571

4

266

ГОРОД

РАБОТА

0,654

0,267

4

267

РАБОТА

СТОЯТЬ

0,637

0,358

4

268

ДЕЛАТЬ

СТОЛ

0,632

0,547

4

269

ЧЕЛОВЕK

ДОБРЫЙ

0,62

0,417

4

270

ВИДЕТЬ

ЭТО

0,612

0,313

4

271

ДЕЛАТЬ

ОПРЕДЕЛЕННЫЙ

0,612

0,559

4

272

ОН

ЖИТЬ

0,612

0,559

4

273

ХОРОШИЙ

ИДТИ

0,606

0,606

4

274

ЧЕЛОВЕKК

РАЗГОВОР

0,598

0,598

4

275

ПЛОХОЙ

ДЕЛАТЬ

0,589

0,368

4

276

ОН

ГОРОД

0,577

0,522

4

277

РУKА

ДОРОГОЙ

0,577

0,555

4

278

ТРУД

ДРУГ

0,577

0,44

4

279

ДЕЛАТЬ

ТОЧKА ЗРЕНИЯ

0,577

0,522

4

280

ДЕЛАТЬ

ПОЛОЖИТЬ

0,577

0,00

4

281

ЧЕЛОВЕKК

ВОЙНА

0,577

0,44

4

282

ДЕЛАТЬ

KНИЖKА

0,577

0,522

4

283

ГОВОРИТЬ

ХОРОШИЙ

0,577

0,555

4

284

ТРУД

ВИДЕТЬ

0,577

0,446

4

285

ГОЛОС

ДЕЛАТЬ

0,577

0,362

4

286

ЖИТЬ

ВИДЕТЬ

0,577

0,357

4

287

СЛЕДОВАТЬ

ДЕЛАТЬ

0,577

0,471

4

288

ДАТЬ

НОВЫЙ

0,577

0,522

4

289

ГОВОРИТЬ

СДЕЛАТЬ

0,577

0,406

4

290

ДЕЛАТЬ

НАСТОЯЩИЙ

0,577

0,367

4

291

СЛЕДОВАТЬ

РАБОТА

0,577

0,471

4

292

ДРУГ

ПЕРЕДАТЬ

0,577

0,44

4

293

ДЕЛАТЬ

ВОЙНА

0,577

0,132

4

294

ЧЕЛОВЕKК

МОЛОДОЙ

0,577

0,44

4

295

ТОЧKА

МЕСТО

0,577

0,355

4

296

ДЕЛАТЬ

ЗЕМЛЯ

0,577

0,471

4

297

МЕСТО

ХОРОШИЙ

0,577

0,424

4

298

ГОЛОВА

ИДТИ

0,568

0,385

4

299

ОПРЕДЕЛЕННЫЙ

ДЕЛАТЬ

0,559

0,559

4

Построение семантических ареалов

Корреляционная семантическая сеть может быть представлена в виде ориентированного графа, где вершинами являются элементы генерального словника, а связи могут интерпретироваться как семантические отношения.

Каждому ребру графа ставится в соответствие действительное число из интервала [0,1], называемое ВКО, которое характеризует “силу” связи между вершинами графа, т.е. “силу” отношения между соответствующими естественно-языковыми единицами.

Представляет интерес не только вся корреляционная семантическая сеть целиком, а ее часть, характеризующаяся заданными минимальными значениями “ВКО” и “Числом значений”. Такую семантическую сеть будем называть приведенной. Главным достоинством приведенной семантической сети является то, что она не содержит заведомо ложной информации относительно связей между естественно-языковыми единицами, а имеющиеся связи сопоставимы, поскольку соответствуют одному критерию (т.е. ВКО>=const, “Число значений”>=const).

На рис. 96 приведена схема формирования приведенной семантической сети:

Рис. 95. Схема формирования приведенной семантической сети

Достаточно очевидно, что приведенная семантическая сеть скорее всего не будет являться полносвязной, т.е. в ней возможно выделить отдельные, не связанные друг с другом фрагменты. Эти фрагменты и являются семантическими ареалами.

Система “Интерлекс” позволяет строить семантические ареалы для каждого элемента генерального словника. Для этого нажмите кнопку “Построение семантических ареалов”. На экране появится окно (рис. 96):

Рис. 96. Построение семантических ареалов

В этом окне можно строить и просматривать семантические ареалы. Семантические ареалы строятся для базового слова, которое является центром ареала.

Просмотр семантических ареалов осуществляется с помощью панели навигации.

Построение семантического ареала выполняется по нажатию на кнопку “Построить” с использованием заданных в этом же окне параметров ВКО и “Числа точек”.

Каждому слову в семантическом ареале соответствует число в столбце “Уровень”. Оно показывает расстояние от базового слова до соответствующего слова в семантическом ареале. Физический смысл расстояния — это минимальное число шагов по приведенной семантической сети, которые связывают базовое слово со словом семантического ареала. Считается, что до самого базового слова требуется 0 шагов.

Для удобства отображения информации можно воспользоваться переключателем “Сортировка”.

Если требуется обновить содержимое семантического ареала или построить его с другими значениями “ВКО” и “Числа точек” (т.е. число значений в корреляционной матрице), то рекомендуется удалить его с помощью кнопки “Удалить”, выбрать новые минимальные значения ВКО и “Числа точек” и построить ареал заново (нажать кнопку “Построить”).

Вся информация о семантических ареалах сохраняется в таблице “NETCLUST.DB”.

Формат таблицы “netclust.db”  

Таблица “netclust.db” имеет следующую структуру:

BaseKey. Идентификатор базового слова, для которого строится ареал. Ссылка на таблицу “dictkey.db”.

RecordID. Порядковый номер записи внутри ареала. Уникален внутри ареала.

KeywordID. Идентификатор слова из генерального словника, которое является элементом ареала базового слова (BaseKey). Ссылка на таблицу “dictkey.db”.

MinLen. Минимальное расстояние от базового слова до элемента ареала.

Для получения копии этой таблицы в виде, удобном для чтения, выполните c помощью утилиты DBD32 следующий SQL-запроc:

select A.Keyword, C.Keyword, B.MinLen

from ‘netclust.db’ B, ‘dictkey.db’ A, ‘dictkey.db’ C

where A.RecordID=B.BaseKey AND

C.RecordID=B.KeywordID

order by B.MinLen;

Результат выполнения этого запроса представлен на рис. 97:

Рис. 97. Таблица “netclust.db” — семантический ареал термина “ВСТРЕТИТЬ”