ЧАСТЬ 1. СЕМАНТИЧЕСКИЕ ИССЛЕДОВАНИЯ ЕСТЕСТВЕННО-ЯЗЫКОВОГО ОПИСАНИЯ ПРЕДМЕТНОЙ ОБЛАСТИ Глава 5. Описание словаря-тезауруса

5. ОПИСАНИЕ СЛОВАРЯ-ТЕЗАУРУСА

Полученный семантический словарь-тезаурус, который приводится в третьей части книги, есть формальное представление предметной области, основанное на корпусе научно-популярных текстов. Его следует рассматривать как справочный материал для раскрытия семантики понятий, приводимых в других энциклопедических или толковых словарях по этой же предметной области. Словарь формально регистрирует факты наличия семантических отношений между понятиями предметной области на заданном корпусе текстов.

Семантический словарь-тезаурус представляет собой набор словарных статей, каждая из которых формально характеризует какое-либо понятие предметной области.

Словарная статья состоит из следующих полей:

· ключевое понятие,

· категория понятия,

· абсолютная частота понятия,

· число словоформ, связанных с этим понятием,

· максимальный и минимальный частотные индексы,

· семантический ареал: совокупность понятий предметной области, формально связанных с ключевым понятием. Для каждого элемента семантического ареала указывается “сила” связи — корреляционное отношение между частотными индексами данного элемента и ключевого понятия.

На рис. 14 приведена структура словарной статьи семантического словаря-тезауруса. Рассмотрим более подробно каждый из элементов этой структуры.

1. Ключевое понятие

Ключевое понятие является заголовком словарной статьи. Все словарные статьи расположены в алфавитном порядке соответствующих ключевых понятий.

Ключевые понятия образуют генеральный словник семантического словаря-тезауруса и получены фактически без использования вычислительной техники. При этом использовалась следующая методика:

· Понятия отбирались из частотных словников, построенных на корпусе текстов. Единственным формальным показателем была абсолютная частота понятия в корпусе текстов. В генеральный словник в основном включались предметные понятия, расположенные вверху и в середине словника.

Рис. 14. Структура словарной статьи

· Часть понятий была заимствована из других словарей по предметной области. В частности, одним из источников был уже упоминавшейся ранее “англо-русский толковый словарь по вычислительной технике, Интернету и программированию” Э. Пройдакова и Л. Теплицкого [АРТСВТ, 2000].

· В генеральный словник вошли также понятия-стимулы, отобранные для проведения ассоциативного эксперимента в предметной области “Информатика и вычислительная техника”15 .

· Некоторые понятия были включены методом экспертного отбора.

2. Категория ключевого понятия

Для каждого ключевого понятия, вошедшего в генеральный словник семантического словаря-тезауруса, была определена его категория. Под категорией здесь понимается условная классификация понятий по четырем основным группам:

· Предмет. Группа включает в себя понятия, преимущественно обозначающие сущности, объекты или предметы. Например, АККУМУЛЯТОР, ПРОЦЕССОР, КОМПЬЮТЕР и т.д.

· Действие. В группу включены глагольные формы, характеризующие операции, действия и процессы. Например, ОТКРЫТЬ, ПЕРЕДАТЬ, КОПИРОВАТЬ, АНАЛИЗИРОВАТЬ и т.п.

· Свойство. Данная группа представлена понятиями, которыми обычно уточняют, описывают или характеризуют другие понятия. Например, АСИНХРОННЫЙ <откат>, ВИДЕОГРАФИЧЕСКИЙ <контроллер>, ВИРТУАЛЬНЫЙ <дисплей> и т.д.

· Состояние. Последняя группа состоит в основном из понятий, характеризующих некоторое событие, состояние или ситуацию. Например, ВИЗУАЛИЗАЦИЯ (т.е. состояние визуализации чего-либо), ВОСПРОИЗВЕДЕНИЕ, ВОССТАНОВЛЕНИЕ, ВЫДЕЛЕНИЕ и др.

3. Абсолютная частота ключевого понятия

Каждому ключевому понятию поставлена в соответствие числовая характеристика частоты его встречаемости в корпусе текстов предметной области. В семантическом словаре-тезаурусе используется интегральная характеристика, полученная на усреднении словоизменительных и части словообразовательных форм ключевого понятия.

При построении частотных словников частота непосредственно фиксируется только для словоформ, а не для их канонических форм. Однако все ключевые понятия представлены в своих начальных формах.

Методика построения семантического словаря-тезауруса предусматривает механизм усреднения грамматических классов, основанный на модифицированном методе квазиоснов, описанном в [Прохоров, 1999]. Таким образом, каждому ключевому понятию поставлены в соответствие конкретные словоформы из частотных словников, построенных по корпусу текстов предметной области.

Например,

ID	ЛЕКСЕМА	СЛОВОФОРМА	АБС. ЧАСТОТА
00003497	АВТОМАТ	АВТОМАТ АВТОМАТА АВТОМАТЕ АВТОМАТЫ АВТОМНЫМ	000010 000006 000002 000011 000001
00003251	АВТОМАТИЗАЦИЯ	АВТОМАТИЗАЦИЕЙ АВТОМАТИЗАЦИИ АВТОМАТИЗАЦИЮ АВТОМАТИЗАЦИЯ	000005 000562 000026 000049
00004149	АВТОМАТИЗИРОВАТЬ	АВТОМАТИЗИРОВАЛ АВТОМАТИЗИРОВАЛА АВТОМАТИЗИРОВАЛО АВТОМАТИЗИРОВАН АВТОМАТИЗИРОВАНА АВТОМАТИЗИРОВАНО АВТОМАТИЗИРОВАНЫ АВТОМАТИЗИРОВАТЬ	000002 000001 000001 000005 000007 000004 000014 000052
00003252	АДАПТАЦИЯ	АДАПТАЦИЕЙ АДАПТАЦИИ АДАПТАЦИЮ АДАПТАЦИЯ	000002 000025 000009 000006
00003499	АДАПТЕР	АДАПТЕР АДАПТЕРА АДАПТЕРАМ АДАПТЕРАМИ АДАПТЕРАХ АДАПТЕРЕ АДАПТЕРНАЯ АДАПТЕРНОЙ АДАПТЕРНЫЕ АДАПТЕРНЫМ АДАПТЕРНЫХ АДАПТЕРОВ АДАПТЕРОМ АДАПТЕРУ АДАПТЕРЫ	000163 000111 000008 000035 000011 000005 000001 000003 000015 000002 000010 000175 000041 000009 000157

Так, например, частота понятия “АВТОМАТ” складывается из частот, связанных с ним словоформ: АВТОМАТ, АВТОМАТА и т.д., т.е. 10 + 6 + 2 + 11 + 1 = 30.

4. Число словоформ, связанных с ключевым понятием

Как было упомянуто выше, каждому ключевому понятию семантического словаря-тезауруса ставится в соответствие словоформа из частотного словника. Однако частотные словники строятся для каждого текста из корпуса текстов. Ключевое же понятие изначально никак не соотносится с конкретным текстом — эта связь устанавливается косвенно через словоформы, с которыми связаны ключевые понятия. Таким образом, в процессе построения генерального словника образуется следующая структура (рис. 15):

Рис. 15. Связь между ключевым понятием, словоформой и текстом

Параметр “Число связанных с ключевым понятием словоформ” характеризует общее число связей между ключевым понятием и словоформами, т.е. может быть подсчитан по формуле

где

Nforms (Kw) — число словоформ для ключевого понятия Kw.

wti — i-я словоформа в тексте t. i=1..Rt, где Rr — общее число словоформ в тексте t.

L(k,w) — функция, имеющая значение 1, если k связана с w, 0 — в противном случае.

ЛЕКСЕМА

СЛОВОФОРМА

ТЕКСТ

АБС. ЧАСТОТА

АВТОМАТ

АВТОМНЫМ

АВТОМАТ

АВТОМАТА

АВТОМАТ

АВТОМАТА

АВТОМАТЫ

АВТОМАТ

АВТОМАТЫ

АВТОМАТЕ

АВТОМАТ

АВТОМАТЫ

АВТОМАТЕ

АВТОМАТА

АВТОМАТЫ

АВТОМАТ

АВТОМАТА

ComputerWeek\01_95\DIC.TXT

ComputerWeek\01_95\POWB.TXТ

ComputerWeek\06_95\QU_DEL.TXT

ComputerWeek\11_95\PL_DAT.TXT

ComputerWeek\11_95\W95_RA.TXT

ComputerWeek\12_95\HP_OP.TXT

ComputerWeek\14_95\KRZEM.TXT

ComputerWeek\18_95\OLIVET.TXT

ComputerWeek\24_95\SIEM.TXT

ComputerWeek\25_95\JUK.TXT

ComputerWeek\26_95\FICON.TXT

ComputerWeek\33_95\GRAPH.TXT

ComputerWeek\36_95\FPGA.TXT

ComputerWeek\36_95\MNEWS2.TXT

ComputerWeek\37_95\BUS.TXT

ComputerWeek\37_95\COG.TXT

ComputerWeek\41_95\WILD.TXT

ComputerWeek\42_95\CRIME.TXT

000002

000001

000006

000001

000003

000001

Значение параметра “число словоформ, связанных с ключевым понятием” для понятия “АВТОМАТ” равно 22.

5.Частотные индексы

Формально, частотный индекс — это номер частотного интервала, в который попадает абсолютная частота ключевого понятия в определенном тексте. Однако необходимо определить назначение этой характеристики и правила ее вычисления.

В качестве формальной меры связи между ключевыми понятиями в словаре-тезаурусе используется корреляционное отношение. Использование корреляционного отношения как меры семантической связи обусловлено следующими допущениями:

· Каждому слову текста T можно поставить целочисленную величину, определяющую его количество вхождений в текст T. Назовем эту величину абсолютной частотой слова в тексте T. В формализованном виде это можно записать как fW(T).

· Будем считать величины fw(T) случайными. Данное допущение небезосновательно. В действительности, употребление того или иного слова в тексте определено большим числом факторов: синтаксисом, семантикой, контекстом, стилем, жанром и т.д. Практически все эти факторы трудно формализуемы (или вообще не формализуемы, если употребление слова связано с субъективными предпочтениями автора или редактора текста, что, например, часто встречается в переводных статьях) и трудно отделяемы друг от друга.

· Если между двумя естественно-языковыми единицами (в частности, словами) определено синтагматическое, парадигматическое, ассоциативное или семантическое отношение, то существует отличная от нуля вероятность, что на достаточно большом количестве текстов можно построить функциональную зависимость между интервалами частот этих слов в данных текстах. Формально, это допущение можно записать следующим образом: , при , где P( ) — вероятность события, заключенного в скобках, fWi(t) — частота слова Wi в тексте t, D fi — допустимые отклонения частот, L — функциональная зависимость между частотами слов и, наконец, {T1, T2, …, TN} — область определения функции L.

· Функцию L можно рассматривать как формальную характеристику семантических отношений между естественно-языковыми единицами. Для построения семантического словаря-тезауруса нам необходимо знать только ее конкретные значения. Поэтому более правильно было бы записать L в каноническом виде: , где S — некоторое числовое значение функции L на множестве текстов и множестве слов в этих текстах:

Фактически, значения корреляционного отношения и рассматриваются как значения функции L.

Из математической статистики известно, что для вычисления корреляционного отношения необходимо построить корреляционную матрицу, каждый столбец и строка которой соответствуют некоторым конкретным значениям характеристик, между которыми и вычисляется корреляционное отношение. А сама матрица содержит число повторений этих значений в генеральной совокупности.

Достаточно очевидно, как могла бы выглядеть корреляционная матрица для вычисления корреляционного отношения между частотами двух ключевых понятий:

	Частоты для понятия 2	f₁	…	f_N
Частоты для понятия 1	—	—	—	—
f₁	—	K₁₁	…	K_1N
…	—	…	…	…
f_M	—	K_M1	…	K_MN

Рассмотрим, что представляют собой частоты f1 ,..., fM и f1 и fN. Это не могут быть абсолютные частоты, так как они напрямую зависят от размера текстов. Фактически, это означает, что абсолютные частоты низкочастотного слова и высокочастотного могут совпасть, если первая частота получена на тексте большего объема, чем текст, по которому вычислялась частота второго слова. Очевидно, что использование абсолютных частот для построения корреляционной матрицы некорректно.

Недостатки абсолютных частот можно преодолеть, если использовать относительные частоты. Действительно, относительные частоты уже не зависят от размера текста, более того, их значения нормализованы (т.е. сумма относительных частот по всем словоформам текста равна 1). Тем не менее построить корреляционную матрицу все равно оказывается невозможно, так как вероятность повторения значения относительной частоты у некоторого слова в другом тексте близка к 0. Это приводит к тому, что корреляционная матрица будет содержать только 0 и 1, да и перечислить все частоты f1 ,..., fM и f1 и fN не представляется возможным, так как относительная частота — действительное число от 0 до 1.

Таким образом, наиболее логичным в данной ситуации представляется вычисление корреляционного отношения между частотными интервалами, а строки и столбцы в корреляционной матрице сделать соответствующими номерам этих частотных интервалов или, в нашем случае, частотными индексами.

Поскольку распределение слов по частоте подчинено закону Ципфа, то частотный интервал целесообразно определить как

, где

max F — максимальная абсолютная частота в тексте;

min F — минимальная абсолютная частота в тексте;

NK — число частотных интервалов;

k — частотный индекс.

Частотный индекс вычисляется для каждого ключевого понятия по каждому тексту. В качестве max F и min F используются максимальная и минимальная частоты, зафиксированные для ключевых понятий на данном тексте.

Значение Nk — это константа, которая устанавливается для всего семантического словаря и эмпирически подбирается исходя из размеров текстов. Для статей еженедельника “Computer Week” наиболее удобным оказалось значение Nk = 20, т.е. для всех ключевых понятий теоретически возможные значения минимального и максимального частотных индексов равны соответственно 0 и 19.

Ниже приведен фрагмент словника, построенного по тексту “ComputerWeek\01_95\Aptalk.txt”:

ЛЕКСЕМА	ЧАСТОТА	Ч. И.
ПРОТОКОЛ	00041	00019
КОМПАНИЯ	00015	00014
МАРШРУТИЗАТОР	00013	00013
СРЕДСТВО	00013	00013
МАРШРУТИЗАЦИЯ	00012	00013
СЕРВЕР	00009	00011
ТРАФИК	00009	00011
ВРЕМЯ	00005	00008
ДАННЫЕ	00005	00008
ПОЛЬЗОВАТЕЛЬ	00005	00008
РЕАЛИЗАЦИЯ	00005	00008
СРЕДА	00005	00008
КЛИЕНТ	00004	00007
КОРПОРАЦИЯ	00004	00007
МОДУЛЬ	00004	00007
УСТРОЙСТВО	00004	00007
СОВМЕСТИМОСТЬ	00004	00007
ПРОГРАММНЫЙ	00004	00007
ПРОГРАММА	00004	00007
ДОСТУП	00003	00005
КОНФИГУРАЦИЯ	00003	00005
СВЯЗЬ	00003	00005
РАБОТАТЬ	00003	00005
РАБОТА	00003	00005
ПЕРЕДАЧА	00003	00005
ПЕРЕДАТЬ	00003	00005
ОДНОВРЕМЕННЫЙ	00003	00005
ЛИНИЯ	00003	00005
КОРПОРАТИВНЫЙ	00003	00005
АСИНХРОННЫЙ	00002	00003
ИНФОРМАЦИЯ	00002	00003
ПРОВЕРКА	00002	00003
ЭФФЕКТИВНЫЙ	00002	00003
УСТАНОВКА	00002	00003
УДАЛЕННЫЙ	00002	00003
ТЕХНОЛОГИЯ	00002	00003
СТАНДАРТ	00002	00003
СПЕЦИФИКАЦИЯ	00002	00003
СОВМЕСТИМЫЙ	00002	00003
СИСТЕМА	00002	00003
ПРОЕКТ	00002	00003
ПРИМЕР	00002	00003
ОТКРЫТЫЙ	00002	00003
ОБОРУДОВАНИЕ	00002	00003
МЕТОД	00002	00003
АДМИНИСТРАТОР	00001	00000
АДРЕС	00001	00000
ДИСТАНЦИОННЫЙ	00001	00000
ИСКЛЮЧЕНИЕ	00001	00000
ОПИСАНИЕ	00001	00000
ОБСЛУЖИВАТЬ	00001	00000
ОБЕСПЕЧЕНИЕ	00001	00000
НИЗКОСКОРОСТНОЙ	00001	00000
...
ИНСТРУМЕНТАРИЙ	00001	00000
ИНИЦИИРОВАТЬ	00001	00000
ДОКУМЕНТ	00001	00000
ВЫСОКОУРОВНЕВЫЙ	00001	00000
ВЫПОЛНЕНИЕ	00001	00000
ВКЛЮЧАТЬ	00001	00000
АРХИТЕКТУРА	00001	00000

Всего в словник попало 105 ключевых понятий, максимальная абсолютная частота ключевого понятия в этом тексте = 41 (понятие “ПРОТОКОЛ”), минимальная абсолютная частота = 1 (понятия, АДМИНИСТРАТОР, АДРЕС, ДИСТАНЦИОННЫЙ, …, АРХИТЕКТУРА)

Функция L(k) для данного текста имеет вид:

В таблице ниже приведены абсолютные частоты для некоторых частотных интервалов:

6. Семантический ареал

Под семантическим ареалом ключевого понятия в семантическом словаре-тезаурусе понимается совокупность понятий и терминов предметной области, для которых можно определить синтагматические, ассоциативные, парадигматические или семантические отношения c ключевым понятием. Вероятно, более точным, с точки зрения лингвистики, названием такой единицы словаря было бы “предметный ареал” или “релевантные понятия”, так как указанные типы отношений имеют различную природу и, как правило, противопоставляются друг другу. Однако все эти типы отношений достаточно тесно связаны друг с другом и, в конечном счете, влияют и определяют семантическую составляющую.

Частотный индекс	Частотный интервал	Kомментарий
0	[1, 1.2039]	В данный частотный интервал попадают только слова с абсолютной частотой 1
1	[1.2039, 1.4494]	Частотный интервал всегда пустой, так как допускает только частоты 1<f<2, что невозможно для абсолютных частот по определению
2	[1.4494, 1.7550]
3	[1.7450, 2.1009]	В данный частотный интервал попадают только слова с абсолютной частотой 2
4	[2.1009, 2.5294]
5	[2.5294, 3.0453]	В данный частотный интервал попадают только слова с абсолютной частотой 3
…	…
13	[11.1651, 13.4422]	В данный частотный интервал попадают только слова с абсолютными частотами: 12 и 13
14	[13.4422, 16.1836]	В данный частотный интервал попадают только слова с абсолютными частотами: 14, 15 и 16
…	…
19	[34.0013, 41]	В данный частотный интервал попадают только слова с абсолютными частотами: 35, 36, 37, …, 41

Как уже было упомянуто, формальной мерой семантической связи между двумя ключевыми понятиями в семантическом словаре-тезаурусе является корреляционное отношение, вычисленное между частотными индексами этих двух понятий на всем корпусе текстов. В результате вычисления корреляционного отношения между всеми определенными для данной предметной области ключевыми понятиями строится простая семантическая сеть. В узлах этой сети располагаются понятия предметной области, а дуги представляют связи, “сила” которых формально определяется значением корреляционного отношения. Семантическая сеть подвергается преобразованию с помощью методов кластерного анализа, т.е. формируются семантические ареалы (кластеры) вокруг ключевых понятий.

Рассмотрим более подробно процесс вычисления корреляционного отношения. Для вычисления корреляционного отношения строится корреляционная матрица Nk x Nk, строки и столбцы которой соответствуют теоретически возможным частотным индексам (в нашем случае частотные индексы могут принимать значения от 0 до 19). Строки соответствуют частотным индексам первого понятия; столбцы — второго. Каждая ячейка корреляционной матрицы с индексами f1 и f2, где f1 — частотный индекс первого понятия, а f2 — второго, содержит число текстов из корпуса текстов, в которых частотные индексы этих двух понятий равны f1 и f2 соответственно.

Ниже приведено формальное представление корреляционной матрицы (табл. 1):

Таблица 1

Корреляционная матрица

W₂		W₁
		...	f₁ = N_{k –1}	n(w2)
f₂ = 0	T_0,0	…	T₀, N_k–1
…	…	…	…	…
f₂ = N_k–1	TN_{k–1, 0}	…	TN_k–1, N_k–1
n (w₁)		…
avg f₂ (w₁)		…

Обозначения:

W1 и W2 — ключевые понятия предметной области;

f1 — возможные значения частотных индексов для понятия W1;

f2 — возможные значения частотных индексов для понятия W2;

Nk — максимально возможное значение частотного индекса, установленное для семантического словаря-тезауруса;

n(w1) — число текстов, в которых частотный индекс f1 понятия W1 принимает значения 0, 1, 2,…, Nk–1 соответственно;

n(w2) — число текстов, в которых частотный индекс f2 понятия W2 принимает значения 0, 1, 2,…, Nk–1 соответственно;

avg f2 (w1) — среднее значение частотного индекса для понятия W2 при условии, что частотный индекс f1 понятия W1 принимает значения 0,1,2, …, Nk-1 соответственно.

– среднее значение частотного индекса f2

Корреляционное отношение между частотными интервалами понятий W1 и W2 вычисляется по формуле

Для определения уровня доверия к вычисляемому статистическому показателю предлагается определять степень разреженности корреляционной матрицы по формуле

В семантический ареал входят только те понятия, для которых:

R(k,w) >= 0.8, D(k,w) <= 0.8 и абсолютная частота >= 20, где k — ключевое понятие, w — понятие, вошедшее в семантический ареал.

Последние три условия и определяют критерии для кластеризации семантической сети.

15 См. книгу данной серии Ю.Филиппович, Г.Черкасова, Д.Дельфт. “Ассоциации информационных технологий. Эксперимент на русском и французском языках”.