М.А.Павлова

 

Методы поиска данных в
информационном ресурсе

 

Введение

В последнее десятилетие в России, точнее в центральном регионе и его областных центрах, произошел настоящий компьютерный бум: в бизнесе, в высших учебных заведениях, школах, в научно-исследо­ва­тельских институтах, даже в некоторых магазинах и в других учреждениях. Человек доверил множество своих проблем компьютеру, в том числе и поиск информации.

Хотя и поиск информации, как самостоятельное направление, был актуален гораздо раньше господства компьютерной техники, но с ростом информации, которой становится больше с каждым поколением человечества, эта проблема ощущается значительно острее, чем в прошедшие десятилетия.

Первые попытки уменьшить время поиска документов с помощью механизации этого процесса относятся к началу века, когда появились (1904 г.) карты с краевой перфорацией, положившие начало применению полумеханизированных информационных поисковых систем. В 1915 г. американский ученый Г. Тейлор получил патент на способ поиска информации с помощью так называемых суперпозиционных перфокарт. Однако практическое применение эти перфокарты нашли только в 1939 г. С тех пор перфокарты заслужили добрую славу как верные помощники людей в поиске той или иной информации.

Уже в середине 50-х годов в СССР была практически осуществлена идея использования перфорационных вычислительных машин для поиска документальной информации.

Если изначально для поиска эффективней было использовать людей, даже если для этого требовалось их все больше и больше, то вскоре положение круто изменилось. В информационном поиске началась эра автоматизации с помощью ЭВМ.

Возрастающая интенсивность использования компьютерных средств привела к тому, что все больше людей вынуждены или стремятся овладеть компьютером, хотя бы на уровне простого пользователя. Такое повседневное использование компьютеров повлекло за собой тенденцию перевода различных документов в электронный вид, будь то ГОСТ, учебник, обозревательская статья, книга и другое. Число документов, представленных в таком виде неуклонно растет, а также ко всему прочему и обновляется. Ничего удивительного, что человек в качестве наиболее простого способа разобраться в этой куче не придумал ничего проще, чем использование поиска. В это время задача поиска стала более значительной. И поиск в динамичном информационном мире является вовсе непростой задачей  и является одной из важнейших проблем информатики.

Используя закономерности рассеяния и старения информации можно существенно ограничивать поток информации, с которой целесообразно знакомиться. Однако та часть потока информации, в которой с наибольшей вероятностью сосредоточены необходимые сведения, все же содержит несметное множество документов. В этом множестве необходимо отобрать те документы, которые соответствуют информационным потребностям пользователя.

Таким образом, поиск можно определить как процесс отыскания в каком-то множестве документов тех, которые посвящены указанной в информационном запросе теме (предмету) или содержат необходимые потребителю факты, сведения.

 Он осуществляется при помощи информационно-поисковых систем (ИПС) и выполняется вручную или с использованием соответствующих средств механизации и автоматизации.

 

Способы поиска информации

Способы поиска можно разделить на две большие группы.

 

Библиографический поиск или поиск "по каталогу". Такой вариант поиска обеспечивает нахождение документов по их выходным данным, например, по названию документа, по его тематике, по именам авторов, датам публикаций и т.д. Эти выходные данные составляют реквизиты документа.

Основой каталога является предварительно заданная модель представления реквизитов, реализованная в виде базы данных, в соответствии с которой обеспечивается запись отдельных элементов реквизитов и последующий поиск по ним.

Основная проблема и недостаток такого варианта поиска – это необходимость выполнения значительного объема работ по предварительной организации, наполнению каталога. Как правило, это ручная классификация на основе привлечения экспертов. Учитывая колоссальные объемы информационных ресурсов, накопленных к настоящему времени, в совокупности с возрастающими темпами их роста становится понятным проблематичность структурирования и организации всего сегодняшнего информационного пространства. Подобный подход позволяет организовать лишь саму малую толику доступных информационных ресурсов.

 

Тематический поиск или поиск "по тексту". Этот вариант поиска ориентирован на нахождение документов по их содержанию. Сюда же относится так называемый полнотекстовый поиск. Общая схема такого поиска заключается в формулировании некоторого запроса пользователем относительно содержания документа, и отборе из множества доступных документов, тех которые удовлетворяют запросу. Такой вариант поиска удобен, прежде всего, тем, что нет необходимости в предварительном разделении документов по различным категориям. Особенно это актуально при значительном объеме доступных документов, высокой динамики их обновления или отсутствии некоторых реквизитов, такая ситуация характерна для Интернета.

Основная проблема такого поиска – это сложность однозначной автоматической интерпретации содержания текстов документов и формулировок информационных потребностей пользователей. Сложность интерпретации затрудняет определение соответствия рассматриваемого документа информационным потребностям пользователя.

Эти проблемы обусловлены отсутствием какой-либо регулярной структуры у текстовых документов на естественном языке. Такие информационные ресурсы принято называть неструктурированными или слабоструктурированными.

Разработка методов анализа слабоструктурированных информационных ресурсов представляется весьма перспективным и многообещающим направлением исследований в области информационного поиска.

 

Классы информационно-поисковых систем

В соответствии с вышеприведенной классификацией способов поиска принято выделять два основных класса информационно-поисковых систем: поисковые каталоги, информационно-поисковые системы

 

Поисковые каталоги в большей степени ориентированны на структурную организацию тематических коллекций с удобной системой ссылок и иерархией документов по тематическим коллекциям. Это позволяет пользователю самостоятельно находить требуемый документ, просматривая структуру каталога, либо использовать механизмы поиска ориентированные на данный каталог. В любом случае, организация информации ее структурирование и предварительное наполнение тематического каталога является в данном варианте информационно-поиско­вой системы первостепенным критерием, определяющим качество и эффективность поиска. Наполнение тематического каталога документами может выполняться как в ручном, так и в автоматическом режиме. Однако наиболее качественным все же остается ручной подбор документов для таких каталогов с привлечением экспертов по конкретным тематическим разделам или полуавтоматический вариант с предварительным "грубым" поиском документов и последующей их селекцией.

 

Информационно-поисковые системы (ИПС) ориентированны на поиск слабоструктурированной информации. Как правило, они используются для поиска документов в больших и динамичных информационных коллекциях, например, в Интернете (Яндекс, Рамблер, Yahoo и др.). Особенностью таких коллекций является отсутствие четко выраженной структурной организации, позволяющей упорядочить и однозначно классифицировать хранящиеся в них документы по тематической направленности.

Процесс поиска текстовой информации, реализуемый типичной поисковой системой, включает в себя следующие этапы:

§      формализация пользователем поискового запроса (представление пользователем, в том или ином виде, своих информационных потребностей);

§      предварительный отбор документов по формальным признакам наличия интересующей информации (например, наличие в тексте документа одного из слов запроса, если запрос формулируется на естественном языке);

§      анализ отобранных документов (лингвистический, статистический);

§      оценка соответствия смыслового содержания найденной информации требованиям поискового запроса (ранжирование).

ИПС в зависимости от объектов поиска можно разделить на две группы:  документальные и фактографические. Документальные системы ограничивают свои цели поиском документов, фактографические – поиском самых разнообразных числовых характеристик, фактов, данных и т.д. Имея много общего, эти типы ИПС обладают и рядом существенных отличий. В автоматизированных системах научно-техничес­кой информации наиболее широкое применение в нашей стране получили документальные ИПС. Этот факт отражает ведущее положение документа в процессе распространения информации.

Любая документальная ИПС – от ручной до автоматизированной – включает следующие элементы:

1.         Информационно-поисковый язык (ИПЯ),

2.         Правила перевода текстов документов и запросов с естественного языка на ИПЯ,

3.         Формальные правила (алгоритмы) поиска,

4.         Технические устройства, реализующие алгоритмы поиска,

5.         Фонд документов (или их адресов), записанных на каких-либо носителях информации.

 

Релевантность

Рассмотрим важное свойство документа – релевантность.

Описание содержания документа с помощью ИПЯ представляет собой поисковый образ документа (ПОД), а описание содержания запроса – поисковый образ запроса (ПОЗ). Правила составления поисковых образов документов и запросов являются правилами перевода текстов с естественного языка на ИПЯ.

При наличии массива документов и соответствующих им ПОД поиск отвечающего на запрос документа сводится к сопоставлению поисковых образов документов и запросов. Для того чтобы оценить степень их соответствия, необходимо сформулировать критерий смыслового соответствия – формальное правило, по которому поисковые образы документа и запроса считаются совпадающими или несовпадающими. При формальном совпадении ПОД и ПОЗ документы считаются отвечающими на запрос. Однако такое совпадение не означает содержательного соответствия выданного документа запросу. Документ, смысловое содержание которого соответствует информационному запросу, называется релевантным этому запросу. Но если ИПЯ неточно выражает смысл документов и запросов, то может оказаться, что близкие по смыслу документы и запросы обладают разными поисковыми образами и, наоборот, у далеких по смыслу друг от друга документов поисковые образы оказываются сходными. В этом случае не все документы, формально соответствующие запросу, соответствуют ему в действительности, т.е. релевантны. Явление, при котором в ответ на запрос система выдает документы, не соответствующие запросу, называется поисковым шумом. По тем же причинам может оказаться, что часть документов, релевантных запросу, все же оказалась не выданной, тогда говорят о потерях информации. Информационный шум и потери информации являются показателями технической эффективности ИПС.

Совершенно иначе обстоит дело с поиском документов по их содержанию. Информация, содержащаяся в научных документах, объективно подчиняется закону рассеяния. Это значит, что в одном случае в ответ на запрос ИПС может выдать несколько профильных публикаций, точно отвечающих на него, не выдав релевантную информацию, рассеянную среди большого количества других источников, в другом – может выдать и релевантную информацию. Полнота поиска возрастет. Однако в этом случае будет иметь место больший поисковый шум. Исходя из этого, можно сделать вывод о принципиальной невозможности одновременного достижения стопроцентной полноты и такой же точности при поиске научных документов. Увеличивая полноту поиска, мы неизбежно уменьшаем его точность и наоборот, увеличивая точность поиска, уменьшаем его полноту.

Точному переводу содержания документа на ИПЯ – индексированию – препятствует субъективное восприятие содержания, выполняющим перевод. В результате одни и те же документы могут быть проиндексированы по-разному. Неточность описания содержания документов при помощи любого ИПЯ не может не сказаться при их поиске.

 

Индексирование

Взглянем на индексирование посредством очень обобщенной классификации. Эта классификация во многом отражает постепенное развитие индексирования.

 

Индексация с помощью ключевых слов. Поиск с помощью ключевых слов является одним из самых простейших поисковых инструментов, на его качество полностью влияет человеческий фактор, т.е. исход поиска обусловлен способностью пользователя грамотно формулировать свой запрос с помощью ключевых слов. Очевидно, что для каждого человека присущ свой набор ключевых слов, то есть люди по-разному рассуждают, что является ключевым, а что нет. Этот способ имеет свои недостатки – это сугубо индивидуальный инструмент.

Статистика показывает, что более 60% поисковых запросов, а они как раз представляют собой индексацию с помощью ключевых слов, в Интернете состоят из 12 слов, для примера, в классических информационно-поисковых системах эта величина 79 слов . Зачастую это приводит к большому количеству обрабатываемых и анализируемых в результате поиска документов. Сами результаты поисков в этом случае могут быть весьма далекими от реальных информационных запросов пользователя, т.к. запрос очень короткий.

Исследования поведения пользователей показали, что многие из них не готовы к продолжительному ожиданию результатов поиска и анализу результирующего множества для выявления необходимых документов. 58% пользователей ограничиваются изучением первого экрана результатов запроса, 67% не пытаются модифицировать свой первоначальный запрос.

При этом критерии качества, используемые в традиционных системах текстового поиска, становятся неадекватными, например, критерий полноты поиска, т.е. процент обнаруженных релевантных документов.

Но практически во всех поисковых машинах, он включен, хотя бы, потому что предоставляет свободу выбора пользователю.

 

Приписное индексирование. Является развитием предыдущего метода, набор слов – список лексических единиц, используемых в качестве ключевых слов, уже составлены не одним человеком в процессе поиска, а заранее и хранится на носителе. В составлении этого словника участвует группа людей, имеющих квалификацию, зависящую от предметной области, для которой разрабатывается этот словник.

Этот метод основан на анализе плана содержания текста и “приписывании” ему лексических единиц (ЛЕ), выражающих его содержание, которые могут не совпадать в плане выражения с лексикой индексируемого текста.

Пожалуй, основным недостатком приписного индексирования является то, что оно предполагает большие затраты интеллектуального труда при обработке документов на входе, при разработке и ведении списков лексических единиц, принятых для индексирования, а также средств смыслоотождествления при поиске.

 

Тезаурусное индексирование (информационно-поисковый тезаурус). Этот метод предполагает наличие семантических связей между лексическими единицами, он ориентирован на поиск в узкой предметной области. Нельзя удовлетвориться выделением значимых слов из текста запроса, необходимо предусмотреть все возможные варианты выра­жения нужного смысла в текстах введенных документов, привлечь наименования понятий, связанные с исходными парадигматическими отношениями. Более подробно этот способ индексации рассматривается ниже.

Остановимся подробнее на индексировании. По спосо­бу проведения индексирования ИПЯ подразделяются на предкоординатные и посткоординатные.

 

 

Предкоординатное индексирование.

В основе предкоординатного индексиро­вания лежит принцип выявления тематики всего документа (факта) либо запроса в целом и сравнения этой выявленной тематики с заранее заготовленным списком лексических еди­ниц ИПЯ, из которых надлежит выбрать наиболее близкие по значению для индексирования документа (факта) либо за­проса. В большинстве ИПЯ предкоординатного индексирования число индексов пропорционально числу основных тем, за­трагиваемых в индексируемых информационных материалах, и различающая способность ИПЯ практически целиком оп­ределяется составом его лексики, внутрь которой втянута грамматика естественного языка.

По структуре ИПЯ предкоординатного индексирования разделяются на следующие группы:

 

1) Перечислительные классификации (рубрика­ции).

Они представляют собой пе­речислительный список классов (рубрик), не связанных друг с другом отношениями подчинения. Список может быть упо­рядочен по какому-либо принципу, например, по алфавиту на­чальных букв первых слов в названиях классов или по при­оритету (важности), убыванию частоты использования этих классов при индексировании. Это наиболее простые класси­фикации. Нередко они используются как вспомогательные средства в системе комплектования фондов ИПС в качестве рубрикаторов   комплектования фондов. Учитывая, что на­правленность комплектования многих фондов периодически изменяется, легко понять, чем для них удобны перечислитель­ные рубрикаторы – в них можно вносить любые изменения, не вызывающие изменений структуры (поскольку структур­ных связей в рубрикаторах этого типа нет).

Индексы, т. е. коды классов рубрик перечислительных классификаций имеют самую простую природу – это просто порядковые номера. Примером крупной классификации, по­строенной по принципу перечислительных классификаций внутри отраслевых разделов, является классификация биб­лиотеки конгресса США. В каждой тематической облас­ти может быть приведено до 1.000 рубрик.

 

2) Иерархические классификации.

Эти классификации отличаются от перечисли­тельных гораздо большей упорядоченностью. Список классов или, как его нередко называют, таблицы классификации, имеет двух- или более уровневую иерархическую структуру. Таким образом, в списке установлены отношения соподчинения. Ие­рархические классификации разбиваются на два разных типа по способу установления отношений между классами.

Моно­иерархические классификации имеют одну верхнюю рубрику (вершину гра­фа иерархии), которой подчиняются все остальные рубрики независимо от числа уровней классификационного деления (“этажности иерар­хии”). Каждая рубрика, за исключением одной верхней, под­чиняется одной и только одной вышестоящей рубрике. Примером может служить естест­веннонаучная классификация животного и растительного мира.

Полииерархические классификации, как явствует из их на­звания, означает построение многих иерархических (а именно ряда моноиерархических) деревьев на одном и том же клас­сифицируемом множестве. Состав признаков требует более серьезного анализа с целью установления их зависимости или независимости друг от друга. Некоторые однородные признаки, между которыми существует зависимость типа иерархической, образуют одну последовательность признаков, другие однородные признаки образуют другую последовательность и т. д., причем, в каж­дой последовательности признаки располагаются в порядке убывания их универсальности, т.е. возрастания специфичнос­ти. Другие признаки, независящие от прочих, остаются ав­тономными.

 

3) Языки предметных каталогов.

Эти ИПЯ классификационного типа широко используются в автоматизированных ИПС промышленного назначения, применяемых, например, при поиске аналогов проектируемых деталей с целью заимствования технологического процесса для их обработки. Однако применение ИПЯ, основанных на той или иной классификации, в автоматизированных документальных ИПС ограничивается тем, что введение новых сложных многоаспектных понятий требует бесконечного расширения классификации, что, конечно, невозможно.

 

Посткоординатное индексирование.

В основе создания ИПЯ посткоординатного индексиро­вания лежит научная гипотеза о том, что основными носите­лями информации в любом тексте являются так называемые ключевые слова. Под ключевыми словами текста понимались все члены предложения и части речи, не являющиеся пред­логами, союзами, междометиями и обозначающие понятия об объектах информации и действиях над ними.

Исходя из того, что не только в естественном языке, но и в ИПЯ отдельные ключевые слова могут быть скоордини­рованы друг с другом в необходимых сочетаниях для полу­чения текстов с заданным смысловым содержанием, было предложено создавать такие ИПЯ, в которых лексическими единицами были слова, а не рубрики и в которых правила индексирования устанавливали бы обязательное использова­ние средств координации лексических единиц друг с другом в соответствии с содержанием индексируемой информации.

Появившиеся в практике информационного поиска около тридцати лет назад языки посткоординатного индексирова­ния очень быстро завоевали признание и получили широкое распространение в мире, в том числе и в нашей стране. Эти ИПЯ прошли в буквальном смысле слова ускоренную эво­люцию именно благодаря крупномасштабному внедрению в ИПС разного типа – с малыми и большими информацион­ными массивами, с ручным и автоматизированным поиском. Однако особенно сильно сказалось на укреплении их пози­ций в практике тематического информационного поиска ин­тенсивное использование средств вычислительной техники в качестве базы реализации ИПС.

Настоящий расцвет ИПЯ посткоординатного индексирования наступил в связи с появлением ЭВМ треть­его поколения. Эти компьютеры улучшились по быстродействию и, что еще более важно, по уст­ройству доступа к внешним запоминающим устройствам (ВЗУ) большой емкости. Непосредственный доступ к ВЗУ на магнитных дисках в сочетании с большими логическими и технологическими возможностями операционных систем и пакетов прикладных программ этих ЭВМ дал, наконец, в распоряжение ИПС именно тот инструмент, который им ну­жен. В связи с этим отпали многие ограничения, тормозившие развитие ИПЯ посткоординатного индексирования и их крупномасштабное внедрение в практику работы ИПС.

Целиком отпала необходимость ручного кодирования лек­сических единиц в поисковых образах документов или фак­тов и в поисковых предписаниях перед вводом в память ЭВМ. Словарь системы, даже если он представляет собой инфор­мационно-поисковый тезаурус с развитыми парадигматиче­скими отношениями между лексическими единицами, число которых достигает десятков и сотен тысяч, мог помещаться целиком в одном пакете ВЗУ на магнитных дисках. Появи­лась возможность организовать с помощью тезауруса инверс­ные поисковые массивы и инверсный поиск (взамен гораздо более медленного поиска поисковых массивов с прямой ор­ганизацией). ИПС могли работать уже не только в режиме пакетной обработки и поиска (во время периодически повто­ряющихся сеансов), но и практически в режиме мгновенного непосредственного обращения (“on-line”) к массивам ИПС с выносных устройств ввода-вывода, в том числе и с удален­ных видеотерминальных устройств, связанных с ней канала­ми телекоммуникаций. Распространение видеотерминальных устройств произвело особый эффект. Появилась возможность осуществлять не только формально-логический, но и содержательный конт­роль вводимой информации, поскольку она во время набо­ра данных с пульта высвечивается на телевизионном экране перед глазами вводящего ее специалиста-тематика (экспер­та) , что ускорило темпы формирования актуальных баз дан­ных и повысило достоверность введенной информации. На­конец, и это едва ли не самое привлекательное, открылась реальная возможность непосредственно связывать абонента не с одной ИПС, а с целой сетью ИПС, соединенных меж­ду собой каналами телекоммуникации.

 

По составу (сложности) лексических единиц, допускае­мых в словарь системы, можно выделить:

1)   ИПЯ унитермов (отдельных словоформ);

2)   ИПЯ словоформ;

3)   словосочетаний естественного языка.

ИПЯ унитермов был предложен М. Таубом в 1951 г. и положил начало широкому применению методов посткоор­динатного индексирования. Словарь унитермов имеет мини­мальный объем по сравнению со словарями по той же тема­тике в ИПЯ, допускающими использование словосочетаний. В таком виде в настоящее время ИПЯ унитермов почти не применяются.

 

По типу словаря системы могут быть выделены ИПЯ:

1)   Со словником,

2)   Со словарем синонимов,

3)   С иерархическим слова­рем,

4)   С информационно-поисковым тезаурусом (дескрипторный ИПЯ).

5)    

Любой ИПЯ в качестве минимального системного средст­ва фиксации лексики должен иметь словник, т. е. список при­меняемых на входе и выходе ИПС лексических единиц, сис­тематизированный в алфавитном порядке. Все остальные ти­пы основных и вспомогательных словарей строятся на слов­нике. В общем случае в словнике могут быть лексические единицы как в виде отдельных словоформ, так и в виде сло­восочетаний естественного языка.

Словарь синонимов представляет собой гораздо более ценный словарь для поиска, нежели словник. Систематиче­ски учитывая синонимию при поиске, удается избежать по­терь из-за неоднозначности представления понятий в доку­ментах, фактах и запросах.

Иерархические словари самостоятельного применения не имеют, но нередко используются в качестве вспомогательных словарей, автоматически получаемых в результате переработки лексико-семантических указателей информационно-поисковых теза­урусов на ЭВМ.

 

Информационно-поисковые тезаурусы

Информационно-поисковые тезаурусы (ИПТ) представ­ляют собой самые мощные в семантическом смысле словари, они объединяют в себе черты словарей, описанных выше, и дополняются еще некоторыми свойствами словарей, которые самостоятельно в ИПС не используются. В настоящее время в области информационного поиска понятия “дескрипторный словарь” и “информационно-поисковый тезаурус” употреб­ляются как синонимы.

Понятие о дескрипторе как о термине, предназначенном для однозначного описания понятий в ИПС, ввел в инфор­матику в 1950 г. К. Муэрс. Именно он несколько поздней предложил учитывать синонимию в словаре унитермов. В то время, когда приходилось особенно бережно расходовать ма­шинную память, представлялось в высшей степени рациональным заменять несколько синонимических терминов од­ним – дескриптором, которому и предоставлялось право од­ному представительствовать в поисковых массивах ИПС за всю группу синонимов. Установление классов условной эквивалентности поро­дило новый тип словаря – словарь дескрипторов.

Дескрипторы – это термины естественного языка, выражающие определенные понятия. Словарь дескрипторов с указанными между ними смысловыми отношениями, охватывающий определенную область знания, называется информационно-поисковым тезаурусом (ИПТ). Идея применения ИПТ для информационного поиска документов состоит в описании содержания документов и запросов с помощью дескрипторов, входящих в его состав. На практике эта идея реализуется следующим образом. Текст документа, вводимого в ИПС, уменьшается до объема реферата, в котором выделяются слова, несущие основную смысловую нагрузку, так называемые ключевые слова. При помощи ключевых слов достаточно точно передается содержание документа. После этого каждое слово заменяется близким ему по смыслу дескриптором информационно-поискового тезауруса.

Совокупность терминов тезауруса-дескрипторов, заменивших ключевые слова, образует поисковый образ документа. Точно так же на язык дескрипторов переводится и запрос. Поиск документов после этого уже можно поручить машине. ЭВМ с присущей ей быстротой просматривает массивы ПОДов и сравнивает их с ПОЗом. Цель такого сравнения – выявить дескрипторы, принадлежащие одновременно ПОДу и ПОЗу, т.е. найти пересечение множеств дескрипторов ПОДа и ПОЗа. Чем больше зона пересечения, тем точнее соответствие документа запросу. Минимальная величина зоны пересечения оговаривается принятым критерием смыслового соответствия. Изменяя его, можно варьировать точность и полноту поиска в зависимости от нужд потребителей информации.

Для соединения «слов» тезаурусов в «фразы» применяются грамматические средства ИПЯ – правила составления поисковых образов с помощью дескрипторов ИПТ. Грамматики, применяемые в ИПЯ, бывают самыми различными. Одни регламентируют порядок дескрипторов в ПОДах и ПОЗах, другие – приписывают каждому дескриптору числа, характеризующие их значимость для поискового образа, третьи – указывают на роль каждого дескриптора при помощи специальных указателей и т.д. Применение грамматических средств в некоторых случаях позволяет более точно передавать содержание документов и тем самым улучшать поисковые характеристики ИПС.

В зависимости от способа фиксации синонимии различаются два типа тезауруса:

1)   с разделением лексических единиц на дескрипторы и недескрипторы (иначе аскрипторы);

2)   тезаурус, в котором все лексические единицы считаются дескрипто­рами.

В тезаурусе первого типа есть лексика, разрешенная к применению при индексировании и поиске, и есть лексика, не допускаемая к индексированию и поиску. В силу этого разделения в таком тезаурусе при каждом не­дескрипторе необходимо давать информацию, каким или ка­кими (в случае омонимии или неконкретности содержания этого термина) дескрипторами надлежит пользоваться вмес­то него. При этом к условно синонимическому дескриптору дается отсылка “смотри”, а к омонимичным терминам со спе­циальными пометами, позволяющими однозначно распозна­вать содержание каждого из них (либо к их синонимам) или к более конкретным дескрипторам дается отсылка “используй”, которая разрешает использовать какой-либо из аль­тернативных вариантов. В свою очередь, при каждом дескрип­торе, на который есть ссылки от недескрипторов, образуется статья, содержащая класс заменяемых этим дескриптором недескрипторов, со ссылкой “синонимы”, т.е. класс условной эквивалентности. По этой причине иногда тезаурусы перво­го типа называют тезаурусами с классами условной эквива­лентности.

В тезаурусе же второго типа все лексические единицы раз­решены к применению при индексировании и поиске, хотя среди них имеются и синонимичные. Для предотвращения воз­можных потерь информации при поиске синонимия в тезау­русе данного типа фиксируется путем установления взаим­ных ссылок “синоним” от каждого из числа синонимичных дескрипторов по всем остальным. Тезаурусы второго типа можно называть тезаурусами без классов условной эквива­лентности.

Тезаурусы первого типа “экономичней” в реализации. Но предъявляют более строгие требования к нормированию лек­сики, что вызывает деформацию естественных связей между понятиями реального мира в ИПС.

Тезаурусы второго типа менее “экономичны” в реализа­ции, так как поиск при их использовании сопряжен с увели­чением перебора в возросшем массиве поисковых лексических единиц. Однако в этом случае в тезаурусе не столь сильно деформируются связи между понятиями реального мира, что способствует более точному поиску.

 

Заключение

В заключение коротко рассмотрим существующие на сегодня методы построения тезаурусов.

Логико-интуитивный. Это самый распространенный метод в задаче проектирования информационных систем классификаторов. В результате этого метода выявляются отношения эквивалентного смысла, противоположного смысла, каузальные отношения, функциональное сходство, включение одного слова в другое. Первоначально производится обзор текста, в результате чего составляется словник и словарь, затем выявляются слова с одинаковым смыслом и над лексикой производится группировка в классе родо-видовых отношений. Формируются семантические поля, то есть создаются перечни слов, имеющих одинаковый смысл и включенных один в другое, и эти поля группируются в предметный класс.

Дистрибутивно-статический. Этот метод представляет собой контекстный анализ частоты встречаемых слов в тексте.

Компонентный анализ. Анализ описания предметов реального мира на основе словарей и построение на основе этого тезауруса.

Ассоциативный эксперимент. Анализируется результаты реакции на слова-стимулы, при которых можно обнаружить устойчивые ассоциативные реакции. На основе стимулов, связанных между собой словами-реакциями с учетом их частоты, строится тезаурус.

Частотно-семантический. Является порождением компонентного анализа, его целью является распределение слова по дескрипторам на основе критерия связанности с помощью некоторой формальной модели. Таким образом, строится семантическое поле внутри дескриптора.

 

 

Литература

 

1.       

[Чурсин Н.Н.]

2.       

[Чугреев В.Л.]

3.       

[Довбенко М.А.]

4.       

[Филиппович Ю.Н.]