4. РЕЗУЛЬТАТЫ ИССЛЕДОВАНИЯ ЕЯ ОПИСАНИЯ ПО

Для анализа была выбрана предметная область “Информатика и вычислительная техника”, которая представлена корпусом текстов еженедельного журнала “Computer Week” за 1995 г. Приведем общие характеристики этого корпуса текстов:

N = 2631 – общее количество статей в журнале.

S = 18 312 906 – общий размер (в байтах) всего корпуса текстов.

T = 31 – количество представленных тем и рубрик.

Ni — количество статей на i-ю рубрику.

Y = 48 – количество журналов, выпущенных за год.

Si — объем (в байтах) i-й рубрики.

В приведенной ниже таблице приведены все тематические рубрики, представленные в журнале:

Рубрика

Ni

Si

1

Рынок программных средств

540

4 188 466

2

Сети

385

2 986 221

3

Рынок аппаратных средств

372

2 589 282

4

Kиты индустрии

144

1 002 302

5

Передовая технология

105

730 845

6

Базы данных

103

716 924

7

Программный продукт крупным планом

101

703 003

8

Размышление и прогнозы

79

549 874

9

Рынок ПK

77

535 953

10

Системы и средства связи

76

528 993

11

Менеджеру информационных систем

60

417 626

12

Выставки, ярмарки, конференции

56

389 784

13

Kомпьютеры и люди

52

361 942

14

Защита данных

48

334 100

15

Экономика информатики

47

327 140

16

Мультимедиа

45

313 219

17

Портативные ПK

44

306 259

18

Графические средства и системы

43

299 298

19

32-разрядные платформы

38

264 496

20

Открытые системы. Стандарты

35

243 615

21

Банковские системы

32

222 733

22

Распределенные объектно-ориентированные БД

28

194 892

23

Информатика и право

18

125 287

24

Настольные издательские системы

17

118 327

25

Имидж-реклама

15

104 406

26

Информатика и госаппарат

15

104 406

27

Kомпьютерный бизнес и право

15

104 406

28

История в лицах

13

90 485

29

Бизнес-клуб “CW-Moscow”

12

83 525

30

Гуманитарная информатика

10

69 604

31

Рынок программ и программистов

6

41 762

 

Всего: 31 тема

2631

18 312 906

Таблица составлена на основе материалов электронной версии годовой подборки журналов, распространяемой издательством “Computer Week”. Из приведенной таблицы явно следует, что представление предметной области “Информатика и вычислительная техника” имеет выраженный научно-популярный характер. Большая доля статей уделяется вопросам рынка, рекламы, экономики, права, обсуждению конференций, персоналий и т.п. Эту особенность необходимо учитывать при интерпретации результатов исследования этого корпуса текстов.

Приведенная ниже таблица иллюстрирует характеристики каждого текстового файла журнала:

Размер

Имя

431 766

01_95.txt

416 848

02_95.txt

414 424

03_95.txt

411 252

04_95.txt

351 366

05_95.txt

376 165

06_95.txt

364 570

07_95.txt

413 196

08_95.txt

398 684

09_95.txt

414 916

10_95.txt

418 969

11_95.txt

383 208

12_95.txt

410 905

13_95.txt

386 396

14_95.txt

484 842

15_95.txt

370 416

16_95.txt

408 131

17_95.txt

390 900

18_95.txt

424 130

19_95.txt

370 634

20_95.txt

331 807

21_95.txt

428 050

22_95.txt

418 550

23_95.txt

372 145

24_95.txt

351 246

25_95.txt

330 754

26_95.txt

317 124

27_95.txt

336 462

28_95.txt

371 020

29_95.txt

356 101

30_95.txt

352 243

31_95.txt

425 170

32_95.txt

357 842

33_95.txt

329 764

34_95.txt

414 170

35_95.txt

469 162

36_95.txt

428 525

37_95.txt

391 909

38_95.txt

418 711

39_95.txt

475 967

40_95.txt

495 330

41_95.txt

390 622

42_95.txt

311 879

43_95.txt

291 732

44_95.txt

283 885

45_95.txt

291 953

46_95.txt

264 998

47_95.txt

264 116

48_95.txt

Средний объем журнала (текста): s =381 518 байт.

Тексты журналов подготовлены в виде обычных текстовых файлов без разметки в формате DOS-866.

На основе этого корпуса текстов необходимо выявить закономерности в отношениях естественно-языковых единиц и сформировать иерархическую семантическую сеть и карты понятий. Согласно предложенной в третьей главе технологии проведем исследование имеющегося корпуса текстов.

4.1. Ядро ЕЯ описания ПО

Будем считать, что первый шаг первого этапа выполнен, т.е. сформированы тексты ЕЯ описания ПО. Тогда сформируем частотные словники по всему корпусу текстов, разделяя русскоязычную и англоязычную лексику. Для этого воспользуемся пакетом “Интерлекс”12.

Построение русскоязычных словников по всему корпусу текстов достаточно трудоемкий (по времени) процесс. В среднем обработка одного текста составляет около 12 мин, а суммарное время, затраченное на построение частотных словников по всему корпусу текстов (чистое время построения) — около 10.5 ч. Основные характеристики частотных словников приведены в таблице (табл. 20):

Nобщ — общее число словоформ,

Nраз — число разных словоформ,

Nmax — максимальная частота.

Текст

Nобщ

Nраз

Nmax

“Сomputer Week”, №1

47525

11277

1527

“Сomputer Week”, №2

46188

10900

1504

“Сomputer Week”, №3

44540

10503

1568

“Сomputer Week”, №4

44587

10288

1487

“Сomputer Week”, №5

38052

9249

1451

“Сomputer Week”, №6

41976

10141

1417

“Сomputer Week”, №7

40328

9631

1362

“Сomputer Week”, №8

45977

10539

1497

“Сomputer Week”, №9

44356

10469

1551

“Сomputer Week”, №10

46327

10507

1608

“Сomputer Week”, №11

47017

11248

1579

“Сomputer Week”, №12

41769

9774

1357

“Сomputer Week”, №13

44788

10480

1456

“Сomputer Week”, №14

42117

9855

1369

“Сomputer Week”, №15

52847

12366

1718

“Сomputer Week”, №16

40375

9448

1312

“Сomputer Week”, №17

44486

10410

1446

“Сomputer Week”, №18

42608

9970

1385

“Сomputer Week”, №19

46230

10818

1502

“Сomputer Week”, №20

40399

9453

1313

“Сomputer Week”, №21

36167

8463

1175

“Сomputer Week”, №22

46657

10918

1516

“Сomputer Week”, №23

45622

10676

1483

“Сomputer Week”, №24

40564

9492

1318

“Сomputer Week”, №25

38286

8959

1244

“Сomputer Week”, №26

36052

8436

1172

“Сomputer Week”, №27

34567

8089

1123

“Сomputer Week”, №28

36674

8582

1192

“Сomputer Week”, №29

40441

9463

1314

“Сomputer Week”, №30

38815

9083

1261

“Сomputer Week”, №31

38394

8984

1248

“Сomputer Week”, №32

46344

10844

1506

“Сomputer Week”, №33

39005

9127

1268

“Сomputer Week”, №34

35944

8411

1168

“Сomputer Week”, №35

45145

10564

1467

“Сomputer Week”, №36

51139

11967

1662

“Сomputer Week”, №37

46709

10930

1518

“Сomputer Week”, №38

42718

9996

1388

“Сomputer Week”, №39

45639

10680

1483

“Сomputer Week”, №40

51880

12140

1686

“Сomputer Week”, №41

53976

11275

1878

“Сomputer Week”, №42

43423

10973

1655

“Сomputer Week”, №43

33324

8305

1250

“Сomputer Week”, №44

32108

8497

1134

“Сomputer Week”, №45

30707

8483

1078

“Сomputer Week”, №46

32437

8726

1141

“Сomputer Week”, №47

28572

8365

1077

“Сomputer Week”, №48

29289

8576

1002

Исследование выбранного корпуса текстов по иноязычной (англоязычной) лексике в данной работе не проводится, однако эта лексика выделяется из всего корпуса текстов и сохраняется как отдельный словник.

Очередной шаг исследования ЕЯ описания ПО связан с формированием ядра. Для формирования ядра выберем полносвязную схему и проверим гипотезу об однородности текстов для каждой пары. Всего, следовательно, нужно выполнить 1128 проверок. Воспользуемся системой Интерлекс и проверим с помощью этого программного средства гипотезы, задавшись пятипроцентным уровнем доверия.

Применение статистического критерия согласия при пятипроцентном уровне доверия показало, что все отобранные тексты ЕЯ описания ПО электронные версии выпусков журнала “Computer Week” могут быть включены в ядро. Учитывая выбранную схему построения ядра, можно сделать вывод о достаточной обоснованности этого включения. Таким образом, естественно-языковое описание предметной области, представленное корпусом текстов журнала “Computer Week”, является однородным.

Построим частотный словник для парных русскоязычных словосочетаний. Эта процедура также может быть выполнена в системе “Интерлекс”. К парным словосочетаниям относятся непосредственно рядом стоящие слова, между которыми отсутствуют знаки препинания, обозначающие конец предложения.

Проведем расчет параметрического профиля, т.е. совокупности статистических параметров корпуса текстов, которые определяют его структуру. Рассмотрим текст в модели “ранг-частота” и построим эмпирическую кривую зависимости количества слов от их ранга.

Например, для текста “Сomputer Week”, №1 эта кривая будет иметь такой вид (рис. 11):

Рис. 11. Модель “Ранг-Частота” для ЕЖ “Computer Week”, №1

Из лингвистической статистики известна функциональная зависимость, описывающая это распределение:

– з-н Мандельброта.

График этого распределения показан на рис. 12:

Рис. 12. Распределение Мандельброта

Рассчитаем приближенные значения параметров этого распределения. Результаты поместим в таблицу:

Текст

С0

С1

С2

p

v

b

“Computer Week”, №1

–3,326

-0,768

-0,002

0,0358

0,006

0,7722

“Computer Week”, №2

–3,344

-0,768

-0,002

0,0352

0,004

0,7707

“Computer Week”, №3

–3,558

-0,646

-0,015

0,0276

0,0491

0,6777

“Computer Week”, №4

–3,538

-0,623

-0,019

0,0279

0,066

0,6646

“Computer Week”, №5

–3,500

-0,676

-0,011

0,0295

0,0331

0,6982

“Computer Week”, №6

–3,447

-0,677

-0,014

0,0309

0,0419

0,7049

“Computer Week”, №7

–3,500

-0,669

-0,012

0,0294

0,0386

0,6946

“Computer Week”, №8

–3,404

-0,701

-0,011

0,0325

0,0313

0,7229

“Computer Week”, №9

–3,464

-0,675

-0,013

0,0304

0,0413

0,7029

“Computer Week”, №10

–3,423

-0,687

-0,012

0,0318

0,0363

0,7119

“Computer Week”, №11

–3,476

-0,703

-0,009

0,0304

0,0248

0,7201

“Computer Week”, №12

–3,443

-0,702

-0,011

0,0312

0,0324

0,7247

“Computer Week”, №13

–3,327

-0,692

-0,007

0,0354

0,0206

0,7063

“Computer Week”, №14

–3,501

-0,672

-0,012

0,0293

0,0389

0,6988

“Computer Week”, №15

–3,470

-0,7

-0,008

0,0306

0,0243

0,7176

“Computer Week”, №16

–3,425

-0,718

-0,007

0,032

0,0223

0,7349

“Computer Week”, №17

–3,341

-0,76

-0,002

0,0352

0,0064

0,7656

“Computer Week”, №18

–3,524

-0,67

-0,012

0,0287

0,0382

0,6964

“Computer Week”, №19

–3,466

-0,708

-0,007

0,0307

0,0229

0,7246

“Computer Week”, №20

–3,377

-0,752

-0,003

0,0339

0,0097

0,7601

“Computer Week”, №21

-3,501

-0,674

-0,012

0,0294

0,0377

0,7

“Computer Week”, №22

-3,429

-0,688

-0,011

0,0316

0,0343

0,7125

“Computer Week”, №23

-3,499

-0,677

-0,011

0,0295

0,0348

0,7013

“Computer Week”, №24

-3,485

-0,702

-0,008

0,0301

0,0232

0,7191

“Computer Week”, №25

-3,406

-0,738

-0,005

0,0328

0,0139

0,7488

“Computer Week”, №26

-3,344

-0,763

-0,002

0,0351

0,0071

0,7684

“Computer Week”, №27

-3,43

-0,731

-0,005

0,032

0,0149

0,7428

“Computer Week”, №28

-3,483

-0,72

-0,004

0,0304

0,0132

0,7294

“Computer Week”, №29

-3,452

-0,695

-0,01

0,0309

0,0324

0,7175

“Computer Week”, №30

-3,278

-0,984

0,02

0,0392

-0,0403

0,9451

“Computer Week”, №31

-3,515

-0,673

-0,011

0,029

0,036

0,6975

“Computer Week”, №32

-3,439

-0,721

-0,005

0,0317

0,0162

0,7327

“Computer Week”, №33

-3,449

-0,714

-0,007

0,0313

0,0208

0,7291

“Computer Week”, №34

-3,501

-0,689

-0,009

0,0296

0,0273

0,7083

“Computer Week”, №35

-3,508

-0,688

-0,01

0,0293

0,0312

0,7096

“Computer Week”, №36

-3,302

-0,794

0

0,0368

-0,0022

0,7927

“Computer Week”, №37

-3,493

-0,689

-0,009

0,0298

0,0297

0,7098

“Computer Week”, №38

-3,421

-0,718

-0,007

0,0322

0,021

0,7335

“Computer Week”, №39

-3,41

-0,746

-0,003

0,0328

0,0101

0,7535

“Computer Week”, №40

-3,477

-0,712

-0,006

0,0305

0,0181

0,7249

“Computer Week”, №41

-3,457

-0,694

-0,01

0,0309

0,0299

0,715

“Computer Week”, №42

-3,337

-0,784

0

0,0355

-0,0004

0,7839

“Computer Week”, №43

-3,471

-0,72

-0,004

0,0308

0,0126

0,7295

“Computer Week”, №44

-3,473

-0,68

-0,011

0,0303

0,0342

0,7041

“Computer Week”, №45

-3,529

-0,669

-0,011

0,0286

0,0365

0,6935

“Computer Week”, №46

-3,267

-0,799

0,001

0,0383

-0,0048

0,7954

“Computer Week”, №47

-3,354

-0,787

0,002

0,0351

-0,0054

0,783

“Computer Week”, №48

-3,532

-0,694

-0,007

0,0288

0,0229

0,7101

Найдем среднее значение и среднеквадратичное отклонение каждого параметра:

Таким образом, естественно-языковое описание предметной области “Computer Week” имеет закон распределения в модели “ранг-частота” следующего вида:

– относительная частота слова с рангом r.

Проведем исследование динамических характеристик корпуса текстов “Computer Week”. Каждый текст является представлением ЕЯ описания ПО в определенный момент времени. Всего весь корпус текстов охватывает временной интервал в 12 месяцев. Будем исследовать следующие динамические характеристики:

·         Динамика структуры текстов.

·         Динамика структуры словников.

·         Динамика содержания словников.

·         Динамика наполнения словников.

Построим соответствующие таблицы и графики:

Динамика структуры текста:

F1

f2

F1

F2

F3

F4

F5

F6

F7

F8

F9

F10

F11

 

1

1

0,013406

0,018835

0,022632

0,02554

0,027491

0,029534

0,031103

0,032764

0,034551

0,035972

0,038028

Ряд 1

2

50

0,054031

0,096958

0,132602

0,160651

0,182823

0,207127

0,228357

0,250627

0,272381

0,29246

0,313552

Ряд 2

51

100

0,006904

0,017864

0,029425

0,039492

0,050433

0,059031

0,067695

0,078345

0,081201

0,089221

0,100698

Ряд 3

101

999999

0,023252

0,058785

0,099248

0,149786

0,192863

0,244118

0,295471

0,355305

0,419996

0,485611

0,547722

Ряд 4

 

 

0,097593

0,192442

0,283907

0,375469

0,45361

0,53981

0,622626

0,717042

0,808129

0,903263

1

 

Динамика структуры словника:

f1

f2

F1

F2

F3

F4

F5

F6

F7

F8

F9

F10

F11

 

1

1

0,163695

0,229996

0,276361

0,311868

0,33569

0,360641

0,379799

0,400085

0,421901

0,439254

0,464355

Ряд 1

2

50

0,116853

0,18995

0,244916

0,287871

0,32077

0,354949

0,384488

0,416385

0,444595

0,472554

0,501342

Ряд 2

51

100

0,001229

0,00321

0,005216

0,007046

0,008877

0,010256

0,011685

0,013441

0,014168

0,015622

0,017503

Ряд 3

101

999999

0,001003

0,002232

0,003561

0,005391

0,006695

0,00825

0,009805

0,01141

0,013616

0,015397

0,016801

Ряд 4

 

 

0,28278

0,425387

0,530053

0,612177

0,672033

0,734096

0,785777

0,84132

0,89428

0,942827

1

 

Динамика содержания словника:

f1

f2

F1

F2

F3

F4

F5

F6

F7

F8

F9

F10

F11

 

1

1

0,578877

0,540674

0,521383

0,509442

0,499515

0,491272

0,483342

0,475545

0,471777

0,46589

0,464355

Ряд 1

2

50

0,41323

0,446534

0,462059

0,470241

0,477313

0,483518

0,489309

0,494918

0,497154

0,50121

0,501342

Ряд 2

51

100

0,004345

0,007545

0,00984

0,01151

0,013209

0,013971

0,014871

0,015976

0,015843

0,01657

0,017503

Ряд 3

101

999999

0,003547

0,005246

0,006718

0,008807

0,009963

0,011238

0,012478

0,013561

0,015226

0,01633

0,016801

Ряд 4

 

 

1

1

1

1

1

1

1

1

1

1

1

 

Динамика наполнения словника:

f1

f2

F1

F2

F3

F4

F5

F6

F7

F8

F9

F10

F11

 

1

1

0,105087

0,208284

0,299654

0,385733

0,458635

0,544767

0,617021

0,706232

0,79906

0,888541

1

Ряд 1

2

50

0,17061

0,321412

0,437653

0,530586

0,602461

0,676487

0,741359

0,811684

0,873806

0,936028

1

Ряд 2

51

100

0

0,002865

0,004298

0,012894

0,032951

0,120344

0,270774

0,459885

0,627507

0,812321

1

Ряд 3

101

999999

0,059701

0,132836

0,21194

0,320896

0,398507

0,491045

0,583582

0,679104

0,810448

0,916418

1

Ряд 4

 

 

0,135334

0,260137

0,362196

0,450738

0,52228

0,602472

0,672735

0,754332

0,833722

0,911482

1

 

В таблицах использованы следующие обозначения:

f1 — нижняя граница исследуемого частотного интервала,

f2 — верхняя граница исследуемого частотного интервала,

.

Динамика структуры текстов показывает относительный объем каждого частотного интервала относительно общего числа слов во всех текстах. Из графика “Динамика структуры текста” хорошо видно, что объем всех частотных групп нарастает линейно от текста к тексту. Это означает, что одинаковые частотные интервалы в разных текстах содержат одинаковое количество слов. Это дает возможность говорить не только о лексической однородности, но и частотной однородности текстов. Это, в частности, подтверждается относительно небольшими значениями среднеквадратичных отклонений параметров распределения Мандельброта, которые были получены выше.

Напротив, динамика структуры словников показывает наличие неоднородности для частотных интервалов ниже 50. Из графика “Динамика структуры словников” видно, что кривые, соответствующие частотным интервалам (1,1) и (2,50), имеют нелинейный характер. Вогнутость говорит о том, что доля малочастотной лексики становится меньше при переходе от текста к тексту, хотя доля слов, образующих высокочастотные интервалы, остается незначительной (около 2–2,5% для частотных интервалов, больших 50). Таким образом, из всей лексики, содержащейся в корпусе текстов, анализу с помощью статистических методов может быть подвергнуто только 2% слов, поскольку частоты остальных не позволят получить надлежащую статистику. Сложим объемы всех текстов, входящих в корпус, и получим 2003090 слов, тогда “эффективный” объем будет составлять около 40000 слов. Необходимо помнить, что здесь речь идет о словоформах, тогда как при лемматизации это число сильно сократится.

Рассмотрим теперь внутренние пропорции каждого частотного интервала (см. график “Динамика содержания словника”). Отчетливо просматривается изменение соотношений среди малочастотной лексики. Доля лексики в частотном интервале (2, 50) увеличивается и становится наибольшей. Вместе с тем происходит снижение доли лексики с частотой 1. Это результат “насыщения”, когда в каждом новом тексте встречается все меньше и меньше новых слов. Поэтому в общем корпусе текстов основную долю представляют “средние частоты”.

Четвертая динамическая характеристика: “Динамика наполнения словника”. Ее смысл в том, что она показывает соотношение долей “заполненности” частотной группы на некотором этапе. Здесь интерес представляет частотный интервал (51, 100). Активное заполнение этого частотного интервала начинается только с пятого текста за счет перетекания слов в этот частотный интервал из других частотных групп.

4.2. Генеральный словник ЕЯ описания ПО

Для получения списка тех словоформ и парных словосочетаний, которые могут быть внесены в генеральный словник, воспользуемся правилом, которое было сформулировано п. 3.3. Для его применения необходимо построить частотный словник по некоторому тексту, в котором не содержится предметной лексики14. Приведем еще раз методику отсечения непредметной лексики:

Пусть:

S(T1) — частотный словник для всей исследуемой генеральной совокупности (корпуса текстов).

S(T2) — частотный словник для текста с непредметной лексикой.

Тогда искомый словник S(T*) = S(T1) — S(T2). Операция вычитания словников была введена во второй главе. Необходимо сделать только одно замечание. На практике необходимо выравнивание частот в словниках S(T1) и S(T2), поскольку тексты T1 и T2 имеют, как правило, разные размеры. По этой причине от абсолютных частот имеет смысл перейти к относительным.

Фрагмент частотного словника (по словоформам и словосочетаниям) по тексту с непредметной лексикой приведен в Приложении 4 материалов электронного издания на CD ROM, которые сопровождают книгу.

Теперь, для того чтобы получить словник S(T*), можно воспользоваться SQL-запросом:

DELETE FROM ‘_wftbl_.db’ A

WHERE A.WordformID IN (SELECT B.WordformID FROM ‘sbor.db’

WHERE A.RelFreq <= B.RelFreq)

Из полученного словника отбираются лексемы. Список этих лексем представлен в Приложении 5 на CD ROM. При отборе все лексемы необходимо преобразовать к каноническому виду. Однако в этом случае теряется связь с текстом (например, для лексемы нельзя указать частоту ее появления). Чтобы устранить это, необходимо провести привязку лексем к словоформам. Эта процедура может быть выполнена автоматически в системе “Интерлекс” с помощью метода квазиокончаний. В приложении 5 на CD ROM приводятся результаты такой привязки. Аналогичные конструкции можно построить и по словосочетаниям.

Сформируем элементарные семантические и экземплярно-иллюстративные поля на основе корпуса текстов. Для этого воспользуемся системой Интерлекс и извлечем из текста элементарные дефиниции и эксцерпции для каждой отобранной лексемы. Параллельно будет построен и указатель источника. Поскольку отбор примеров делается из корпуса текстов, в которых нет разметки на страницы, то будет формироваться только сквозной номер строки (Приложение 6 на CD ROM).

При извлечении элементарных дефиниций из текста система “Интерлекс” дополняет генеральный словник словами, которых там не было, но имеющих дефиницию в тексте. Это относится как к отдельным словам, так и к словосочетаниям. Понятно, что для некоторых ЕЯ конструкций частота встречаемости во всем корпусе текстов может быть равна 1, что не дает возможности их исследования статистическими методами. Однако на этапе построения генерального словника все слова и словосочетания, каким-либо образом выделенные в процессе анализа, должны быть включены в него.

Итак, на основании вышесказанного, в генеральный словник войдут слова и словосочетания, которые:

·         отобраны из списка, полученного в результате операции вычитания словников с предметной и непредметной лексикой (слова и парные словосочетания);

·         автоматически внесены в генеральный словник при формировании элементарных дефиниций;

·         англоязычная лексика (из словника, сформированного на первом этапе).

Выполнение очередного этапа завершилось формированием генерального словника ЕЯ описания ПО и определением основных характеристик лексем, вошедших в него. В частности, были сформированы элементарные дефиниции на основе синтаксического анализа корпуса текстов, было построено экземплярно-иллюстративное поле для каждой лексемы на основе эксцерпций, а также были рассчитаны частотные характеристики лексем на основе связей с соответствующими словоформами. Все указанные параметры были получены и сохранены в лингвистической базе данных, а в приложениях были отражены только ее отдельные фрагменты. Это связано в первую очередь со сложностью структуры и неоднородностью заполнения внутренних полей ЛБД. Все полученные характеристики будут на следующем этапе помещены в соответствующие поля карты понятий.

4.3. Семантическая сеть и карты понятий

Построение семантической сети основано на применении дистрибутивно-статистического метода и корреляционного отношения для получения числовой характеристики связанности слов в тексте. Семантический анализ будем проводить на всем корпусе текстов. Воспользуемся возможностями системы “Интерлекс” (рис. 13):

Рис. 13. Построение корреляционной (семантической) сети в системе “Интерлекс”

Полученная семантическая сеть сохраняется в лингвистической базе данных в таблице со следующей струкурой:

MasterID

SlaveID

Rxy

KV

ValCount

MasterID — идентификатор лексемы, из которой выходит связь;

SlaveID — идентификатор лексемы, на которую связь направлена;

Rxy — корреляционное отношение;

KV — коэффициент корреляции;

ValCount — число точек в корреляционной матрице для пары (MasterID, SlaveID).

Определим основные характеристики семантической сети:

Число записей в таблице:

108598

Максимальное значение Rxy:

1

Минимальное значение Rxy:

0.001

Максимальное значение ValCount:

65

Минимальное значение ValCount:

2

Число вершин сети (N):

1156

Число связей (M):

108598

Число нелинейных связей (Rxy0 KV=0):

914

Число выраженных линейных связей (RV=1):

9915

 

 

Число выраженных нелинейных связей (Rxy=1):

14533

Из формул (3.21) получим число несвязанных компонент сети (k):

,

,

Поскольку число компонент сети не может превышать число вершин, то делаем вывод, что число несвязанных компонент семантической сети лежит в пределах:

Построим приведенную семантическую сеть, приняв в качестве пороговых значений R0 (пороговое значение корреляционного отношения) и V0 (пороговое значение числа точек в корреляционной матрице) значения: R0 = 0.5, V0 = 8.

Такая сеть может быть построена с помощью следующего SQL-запроса:

SELECT * FROM ‘dictcorr.db’ WHERE Rxy >= 0.5 AND ValCount >= 8.

В приведенной семантической сети присутствуют только те связи, которые удовлетворяют требованию:

Для любых .

Определим параметры приведенной семантической сети:

Число записей в таблице:

2211

Максимальное значение Rxy:

1

Минимальное значение Rxy:

0.5

Максимальное значение ValCount:

65

Минимальное значение ValCount:

8

Число вершин сети (N):

1156

Число связей (M):

2211

Определим число несвязанных компонент приведенной семантической сети:

,

,

,

,

Видно число несвязанных компонент возросло примерно в 1,5 раза. Это позволяет сделать вывод о наличии семантических ареалов.

На заключительном этапе исследования ЕЯ описания ПО строится простая и иерархическая семантические сети и формируются карты понятий.

12 Пакет “Интерлекс” — система автоматизированного анализа естественно-языкового описания предметных областей, разработанная в рамках НИОКР по исследованию семантико-статистических характеристик текстов и представленная в качестве дипломной работы Прохоровым А.В. в 1998 г.

14 В качестве такого текста были взяты материалы для хрестоматии “Отечественные лексикографы” [Богатова, 1998]. Текст содержит в основном общеупотребительную и специальную филологическую лексику, и поэтому его словник может служить для отсечения непредметной лексики в корпусе текстов журнала “Computer Week”.