1. МОДЕЛИ И МЕТОДЫ ПРЕДСТАВЛЕНИЯ И ОРГАНИЗАЦИИ
ЗНАНИЙ
1.1. Обзор методов и решений
в системах организации знаний
Автоформализация знаний
Знания людей представляют собой
проверенный практикой результат познания действительности, являющийся верным ее
отражением в их мышлении в виде “картины мира”. Мышление как познавательная
способность человека является средством формирования “картины мира”, а сама
“картина мира” — ее результатом. Это проявляется в таких мыслительных
процессах, как предвосхищение, понимание и др. Однако знания, используемые в
этих процессах, рассматриваются как “прошлый опыт”. В результате мышления
формируются также и новые знания, но, будучи полученными, они тут же
автоматически переходят в разряд “прошлого опыта”. Таким образом, основной
формой существования знаний является “прошлый опыт”, который хранится в памяти
человека.
В настоящее время уделяется большое
внимание исследованиям памяти: процессов запоминания, хранения,
воспроизведения, забывания информации человеком, а также выявлению когнитивных
структур, в виде которых человек хранит информацию об окружающем его мире.
Результаты этих исследований находят отражение в формализации знаний человека в
интеллектуальных системах.
Каждая из интеллектуальных систем
соотносится с определенной частью реального мира — сферой деятельности
человека, выделенной и описанной в соответствии с некоторыми целями и
называемой предметной областью. Описание предметной области представляет
собой совокупность сведений: а) обо всех предметах — объектах, процессах и
явлениях, выделенных с точки зрения рассматриваемой деятельности; б) об
отношениях между выделенными предметами и/или их частями; в) обо всех
проявившихся и возможных взаимодействиях между предметами, их частями и
отношениями, возникших в результате осуществления деятельности человека.
Сведения о предметах
представляются в знаковой форме. В зависимости от типа знаковой системы сведения могут быть
представлены в виде естественно- или искусственно-языковых, графических,
речевых, жестомимических образов, а также в другой форме, например при
использовании индексных знаковых систем, в виде показаний приборов.
Источником знаний является субъект.
Любые технологии, процедуры, операции со знаниями могут быть реализованы только
им самим или совместно с ним как некоторая процедура их опредмечивания,
обретения ими натуралистического предмета — носителя образа (знака). Назовем
эту процедуру автоформализацией знаний1. Название процедуры
представления знаний выглядит весьма обоснованно: автоформализация знаний —
это придание владельцем знаний (их автором) им некоторой формы.
Необходимыми условиями
автоформализации знаний являются: наличие конкретного носителя знаний —
субъекта; наличие у субъекта необходимых знаний; существование некоторой
наперед заданной формы представления знаний; наличие у носителя знаний
инструментария, с помощью которого осуществляется представление знаний в
этой форме.
Необходимость первого и второго
условий не вызывает сомнений, во всяком случае, с тех позиций, с которых здесь
ведется изложение. Вместе с тем следует отметить, что в общем случае выделение
конкретных носителей знаний (людей) и самих знаний, т.е. проверенного практикой
результата познания действительности, является нетривиальной задачей.
Необходимость существования
некоторой формы представления знаний — третье условие, также не вызывает
сомнений, однако вопрос о том, какова она должна или может быть, остается
открытым.
В качестве четвертого необходимого
условия названо существование инструментария автоформализации знаний. Это означает,
что инструментарий должен существовать в некотором виде еще до начала
автоформализации, т.е. что возможным является рассмотрение только некоторого
фрагмента непрерывной деятельности субъекта.
Введем некоторые определения с целью
систематизации последующих рассуждений о представлении знаний. Создание полной
и непротиворечивой системы определений является одним из вопросов когнитивной
науки, требует более детальной проработки, что выходит за рамки настоящей
работы.
Представление знаний (=автоформализация знаний) — любые действия
со знаниями, осуществляемые субъектом, направленные на формирование внешнего
образа, в том числе и “первое” представление.
Интерпретация знаний — “последующие” представления знания,
формирование последующих внешних образов (=метаобразов, моделей, метазнаний,
метамоделей и т.д.).
Методы (=способы) представления
знаний — действия, система
действий (совокупность процедур, операций и приемов) по представлению знаний в
форме внешних образов.
Формализация знаний, организация
знаний, анализ знаний, извлечение знаний и т.д. — именованные производные информационные технологии
представления знаний.
Инструментарий — часть информационной технологии,
теоретические и практические методы представления знаний и средства их
поддержки.
Формализация знаний
Формализация знаний — это
представление знаний субъекта о предметной области с использованием знаковых
систем. В зависимости от
типа знаковой системы данные могут быть представлены в виде естественно- или
искусственно-языковых, графических, речевых, жестомимических образов, а также в
другой форме. Дифференцированными методами формализации знаний являются:
естественно-языковое описание, лексикографическое описание, тезаурусное
описание, формально-языковое.
Естественно-языковое описание. Формализация знаний на основе
естественно-языковой знаковой системы приводит к формированию естественно-языкового
описания, текста2 . Текст является наиболее полным
представлением знаний субъекта. Он отражает не только сами образы, но и процесс
их порождения, т.е. содержит и декларативную и процедуральную компоненты
знания. Инструментарием естественно-языкового представления знаний является сам
естественный язык, который можно рассматривать как “универсальный код”
представления знаний. Любое знаковое представление знаний развернуто в
пространственно-временном континууме. Текст отражает “течение мысли” и в связи
с этим его организация последовательна и непрерывна. Знание в тексте
распределено по всему его протяжению от начала — первого образа, и до конца —
последнего. Развиваясь во времени, как в процессе порождения, так и в процессе
последующего восприятия, текст характеризуется некоторой величиной накопленного
знания и динамикой его накопления. Отдельные образы текста (знаки, языковые
единицы) связаны между собой двумя типами отношений: синтагматическим и
парадигматическими. Структура и характер отношений между синтагмами отражают
все многообразие отношений между элементами знаний.
Формализация на основе естественного
языка представляет собой информационную технологию, являющуюся основной.
Приемы, процедуры и операции этой технологии являются составными частями других
информационных технологий.
Инструментарий формализации включает
теоретические и практические методы различных наук. Современные средства
поддержки технологии — автоматизированные системы анализа и обработки текстовых
данных (текстовые редакторы и процессоры). Более подробно см. авторские работы
[Филиппович, 1990 а, 1990 б].
Лексикографическое (словарное)
описание
Для формализации знаний о реальном
мире может оказаться достаточным использовать такие конструкции естественного
языка, которые позволяют несвязно, непоследовательно и прерывно описывать
объекты и процессы в виде системы слов и их определений. В этом случае описание
слова частично, немногосторонне представляет знание субъекта. Такой способ
представления знаний называется лексикографическим3 , а его результат — лексикографическим (словарным) описанием, словарем.
Лексикографическая формализация
знаний порождает следующие типы текстовых структур: словники, словоуказатели,
конкордансы, словари. В общем случае объектом лексикографического описания
может быть знание (образ), не связанное только с какой-либо одной языковой
единицей, например словом. В этих случаях лексикографическое описание будет представлять
словарь языковых единиц [Филиппович, 1990 а].
Если в качестве языковой единицы в
лексикографическом описании будет рассматриваться текст, то такого типа словари
целесообразно отнести к методам организации знаний.
Лексикографическая информационная
технология включает следующий набор основных процедур: отбор источников, анализ
текстов, составление словников и словоуказателей, анализ словоупотреблений,
составление полных или частичных конкордансов, составление словарных статей,
собрание словаря.
Инструментарий лексикографической
технологии представляют методы теоретической и практической лексикологии и
лексикографии, научных дисциплин языкознания, а также современные
автоматизированные системы анализа и построения словарей, а также реализованные
в виде информационно-программных изделий электронные словари и энциклопедии.
Логико-интуитивное описание
Для формализации знаний может
оказаться достаточным использование таких средств естественного языка, которые
только обозначают внутренние образы субъекта (предметы реального мира и их
понимание), именуют их в форме слов-понятий. В этом случае знание субъекта
представляется только в декларативной форме. Система понятий, образующаяся при
этом, содержит в себе сами слова-понятия и слова-понятия отношений между ними,
называемые парадигматическими. Таким образом, знание субъекта
оказывается представленным в форме пар слов-понятий, связанных между собой
поименованными словами-отношениями. Каждая такая пара является логической конструкцией,
называемой суждением или утверждением.
Парадигматические отношения
представляют понимание субъектом внутреннего образа, т.е. конечную цепочку
преобразований внутреннего знака (включая концептные, денотативные и
коннотативные компоненты), и фиксируют его в виде внешнего знака (понятия).
Парадигматические отношения таким образом являются концептными (смысловыми),
денотативными (призначными) и коннотативными (чуственно-оценочными) свойствами
знаний. В качестве примера можно выделить следующие виды парадигматических
отношений смысловых свойств знаний: эквивалентность смыслов слов (полная или
частичная синонимия), полярная противопоставленность смыслов слов (антонимия),
включение смысла одного слова в смысл другого (отношения “род — вид”),
связь смыслов типа “причина — следствие”, связь смыслов типа “часть —
целое”, функциональное сходство и др.
Формализацию знаний путем именования
предметов и отношений между ними словами-понятиями естественного языка называют
тезаурусным описанием, а результаты такого описания — тезаурусами.
Особенностью тезаурусного способа
представления знаний является интуитивный характер выявленных отношений,
нечеткость и произвольность. Тезаурусное представление знаний фрагментирует
знание, структурирует его в пространственно-временном континууме так, что всё
знание оказывается разделенным на отдельные группы понятий (парадигматические
классы, классы эквивалентности), связанных между собой определенными
отношениями.
В связи с тем, что тезаурус
представляет собой систему связанных между собой понятий, являющихся образами
предметной области реального мира, его можно назвать “понятийной картиной
мира” (понятийной картиной ПОРМ). Если считать, что в самом общем случае
любое слово естественного языка может быть соотнесено (связано отношением) с
любым другим словом, то тезаурус можно назвать “языковой картиной мира”
(языковой картиной ПОРМ).
Информационная технология
тезаурусного описания в общем случае включает процедуры формирования списков
слов-понятий (слов-отношений) и группировки их в парадигматические классы.
Более подробно она будет рассмотрена ниже.
Инструментарий тезаурусной
технологии представлен теоретическими и практическими методами многих наук, в
числе основных: языкознание и информатика. Современными средствами технологии
являются информационно-программные изделия анализа и организации
естественно-языковой информации.
Формально-языковое описание. Для формализации знаний могут быть
использованы искусственные знаковые системы — формальные языки. При этом
вводятся абстрактные языковые конструкции, которым ставятся в соответствие
объекты и процессы реального мира, тем самым осуществляется описание знаний в
виде формальных моделей. Произвольный формальный язык, используемый для
описания предметной области, базируется на конкретном наборе первичных,
абстрактных конструкций, которые определяют или описывают знания и изменяют их.
В основе логических моделей
представления знаний положено следующее определение формальной системы:
М
= < Т, Р, А, F >.
Здесь обозначено: Т — множество базовых
элементов; Р — множество синтаксических правил, позволяющих строить из Т
синтаксически правильные конструкции; А — множество априорно-истинных
конструкций, называемых аксиомами; F — семантические правила вывода,
позволяющие расширить множество аксиом за счет других конструкций, которые в
рамках данной формальной системы также считаются истинными.
В зависимости от применяемых правил
формальные системы делятся на три класса: исчисления, продукционные системы,
алгоритмы. В исчислениях нет ограничений на применяемые правила вывода.
К любой уже выведенной формуле можно применить любое правило вывода, если
данная формула допускает применение этого правила. В продукционной системе
имеются дополнительные условия на применимость того или иного правила вывода. Условия
применимости могут меняться по мере получения продукционной системой
дополнительной информации. В алгоритмах последовательность применения
правил вывода определена однозначно.
Классификаций формальных моделей
существует достаточно много, наиболее распространенная представлена в работах
Д.А.Поспелова, например [Поспелов (Д),1990. С.4–29]. Для формализации знаний
применяются: формальные грамматики, логические модели (дедуктивные и
индуктивные модели, псевдофизические логики и др.), сетевые (простые, иерархические,
однородные и неоднородные, функциональные, семантические, фреймовые, сценарии и
др.), продукционные. Подробное описание можно найти в [Филиппович,1990 б].
Состав процедур и операций
информационной технологии формально-языкового описания знаний существенно
зависит от выбранной модели, однако общим является последовательное определение
компонентов формальной системы (множеств: базовых элементов, синтаксических
правил, аксиом; семантических правил вывода) и соотнесение их с внутренними
образами, знаниями.
Инструментарий формально-языковой
технологии описания знаний включает теоретические и практические методы
определенных разделов математики (алгебры, теории множеств, теории формальных
языков и программирования, математической лингвистики и др.), информатики,
кибернетики и других научных дисциплин. Инструментальными средствами поддержки
формально-языкового описания знаний являются различные
информационно-программные изделия.
Организация знаний
Человек обладает атрибутивными
возможностями представлять свои знания в различных формах, прежде всего
благодаря строению своего тела. Возможности совершать различные движения
органами, прежде всего органами речи, а также руками, мышцами лица и другими
частями тела позволяют ему представить свои знания в естественной (в смысле
данной “природой”) форме. Используя в качестве носителя знака собственное тело
или естественные условия природы, человек формирует жестомимические и речевые
образы. Наличие органов чувств позволяет человеку воспринимать создаваемые им
образы. В итоге изначальной формой организации знаний является естественная
форма обмена сообщениями между людьми. Недостаточная эффективность данной
формы для представления определенных знаний объективно приводит к созданию искусственных
форм организации знаний, основанных на целенаправленном использовании
свойств природы для передачи сообщений.
Следует заметить, что все
искусственные формы организации знаний, во-первых, ориентированы на
определенные естественные формы; во-вторых, существенно зависят от носителя,
т.е. натуралистического предмета, лежащего в основе внешних образов,
представляемых знаний; в-третьих, в той или иной степени моделируют способности
субъекта и его деятельность, организацию природы.
Организация знаний представляется
множеством информационных технологий. Можно выделить следующие искусственные
формы организации знаний: допечатные технологии как в аспекте синхронии,
например современный рукописный документооборот, так и в аспекте диахронии,
примером является введение в научный оборот древних рукописей; печатные
(полиграфические) технологии в аспекте редакционно-издательской
деятельности, допечатных, печатных и послепечатных процессов, хранения и
распространения печатной продукции, библиотечного дела; электронные
(безбумажные) технологии как современные технологии создания, хранения и
распространения знаний в естественно- и формально-языковой, текстовой и
графической, аудиовизуальной, мультимедийной и виртуальной формах.
Методы анализа знаний
Формализованные и организованные
знания независимо от своей формы являются предметом восприятия субъекта и в
итоге — внутренним знанием, знанием знания — метазнанием, которое также может
быть формализовано. Методы анализа знаний — это формальное представление
метазнаний. Следует выделить две группы методов анализа: количественные и
логические. В обоих случаях анализируются, прежде всего, денотативные признаки
натуралистического предмета, являющегося носителем образа (знака). В результате
анализа знаний осуществляется их оценка.
В количественных методах анализа каждой оценке ставится в соответствие ее
количественная характеристика, полученная путем измерения с использованием
числовой шкалы. Количественный анализ знаний приводит к получению обобщенных
количественных характеристик — статистик. В зависимости от того, как получена
статистика, количественный анализ дает точное числовое значение, приближенное,
или вероятностное. Множество количественных характеристик конкретного знания
является его количественной моделью.
В логических методах анализа используются номинальные шкалы, и каждой
оценке ставится в соответствие некоторое высказывание. Логический анализ знаний
приводит к получению логических выражений об истинности или ложности знания. В
зависимости от того, как осуществляется анализ, логические методы разделяются
на диалектические и формально-логические. Формально-логическое описание знания
является его логической моделью и осуществляется на основе формального языка,
формальной системы.
Методы извлечения знаний
Извлечение знаний является процессом
представления их в виде обобщенных моделей, построенных на основе методов
формализации, организации и анализа знаний. Методы можно разделить на три
группы: наблюдение, контент-анализ и эксперимент (сравните с методами сбора
данных в социологии [Михайлов, 1975; РКС, 1977]). Методы извлечения знаний
реализуются как поименованные производные информационные технологии.
Наблюдение4 представляет собой совокупность процедур и
операций фиксации субъектно-предметных отношений в ПОРМ. Фактически это уже
рассмотренные методы формализации знаний.
Контент-анализ (от англ. contents — содержание,
содержательный анализ) представляет собой методы построения количественных и
логических (в частном случае формально-логических) моделей ранее
формализованных знаний. Например, “количественное изучение документов, ...
перевод в количественные показатели массовой текстовой информации” [Ядов, 1972.
С.126].
К числу информационных технологий,
реализующих контент-анализ, можно отнести: дистрибутивно-статистический
метод извлечения знаний, компонентный анализ [Москович,1971],
частотно-семантический анализ [Караулов,1980,1982; РСС,1982].
Эксперимент5 представляет собой методы целенаправленной предварительной
формализации некоторого знания субъектом-экспериментатором, последующей его
повторной формализацией субъектом-респондентом и контент-анализом результатов
формализации. Примерами формализации знаний на основе экспериментов являются
различные психолингвистические методики и, в частности, ассоциативный
эксперимент [РАС,1998].
Почти исчерпывающую классификацию
методов извлечения знаний можно найти в [Гаврилова, 1992. С.81–112].
1.2. Словарно-тезаурусное
представление знаний
Предпосылки обобщения форм
представления знаний
Анализ рассмотренных методов
формализации знаний показывает, что естественно-языковое описание
преимущественно используется для представления декларативных знаний, а
формально-языковое — для процедуральных. Выбор субъектом метода формализации
знаний определяется его стремлением сделать коммуникацию максимально
эффективной. Это возможно, если свести к минимуму различия понятий предметной
области и формальной модели. С этих позиций описанные выше модели (кроме
семантической сети) не могут быть применены как основные в системе организации
знаний на базе семантического словаря-тезауруса. Существуют, по меньшей мере,
два аргумента:
1. При обзоре методов формализации
всегда в явном виде указывалась основополагающее утверждение (формула)
формальной модели. Так, для простейших логических систем это формула имела вид:
S = <B, F, A, R> и т.д. Необходимо обратить внимание на то, что ни одна
из компонент этих формул не несет никакой семантической нагрузки. Это
искусственные математические знаки, между которыми (в рамках соответствующей
модели) заданы определенные отношения. Таким образом, встает проблема переноса
конкретных понятий и концепций, существующих в рамках предметной области в
соответствующую формальную модель. Другими словами, необходимо иметь четкую
схему отношения математических знаков с объектами (свойствами и процессами)
некоторой предметной области. Насколько позволяет судить об этом имеющаяся
литература, эффективной процедуры такого перенесения не существует.
2. Вне зависимости от того, какую
формальную модель из вышерассмотренных выберет разработчик интеллектуальной
системы, перед ним встанет необходимость исследования ЕЯ описания ПО для
выявления в ней особенностей, на основе которых будут строиться продукции,
правила перехода состояний и т.д. Это чрезвычайно сложная задача, адекватного
решения которой также не существует.
Приведенные аргументы — это есть
естественное свойство математической знаковой системой. Ученым, анализировавшим
кодовые системы (а математические системы таковыми являются), известно, что
символы (математические знаки) органически не связаны с обозначаемым, а
являются полностью конвенциальными и используемыми по случаю [Соломоник, 1995;
Kac, 1968].
Это наводит на мысль о необходимости
существования некоторого промежуточного представления знаний, которое целиком
основывается на ЕЯ описании ПО. Такой формальной промежуточной моделью и
является словарно-тезаурусное представление. Действительно,
предметно-ориентированный или проблемно-ориентированный словарь содержит в себе
терминологию предметной области, т.е. описывает объекты, процессы, признаки и
ситуации ПО. Аналогично, тезаурус определяет отношения между понятиями.
Поскольку тезаурус подразумевает типизацию связей, то разделение совокупного ЕЯ
представления на отдельные компоненты (объекты, процессы, признаки и ситуации)
оказывается возможным.
Все предпосылки обобщения форм
представления знаний разделим на три группы: естественные, организационные,
деятельностные.
Естественные предпосылки обобщения форм представления знаний состоят
в использовании субъектом своих атрибутивных возможностей. Человек,
взаимодействуя с частью реального мира, в любой момент времени направляет свою
деятельность на любой из доступных ему предметов. Так исследования
психофизиологических параметров людей показывают при определенных видах
деятельности хаотичное движение зрачка глаза, непроизвольные движения головы,
рук, других частей тела, а также целенаправленность моторных действий по
отношению к любым предметам и процессам, доступным для их возможностей.
Обобщенная форма знаний должна быть отграниченной и гранулированной таким
образом, чтобы обеспечить аналогичную реализацию возможностей человека.
Организационные предпосылки обобщения форм представления знаний состоят
в опыте использования различных информационных технологий для представления
знаний. Так, например, печатная форма представления знаний предполагает в
определенной степени произвольный доступ к знаниям. Она типизирует тексты на
описания и справочные издания, организует некоторым образом текст на странице
книги, в отдельном томе и т.д., кроме этого снабжает текст различными
метазнаниями в виде глоссариев, индексов и др., организует библиотеки и
распространение книги.
Деятельностные предпосылки обобщения представления знаний состоят в
том, что в разнообразных формах извлечения знаний используются сходные методы
формализации, фактически используются разнообразные наборы процедур и операций
при одном и том же их составе. Так во всех названных выше технологиях
извлечения знаний используются одинаковые процедуры естественно-языкового
описания знаний, одинаковые количественные методы (статистические подсчеты) и
т.д.
Обобщение методов формализации
знаний
Подход к организации знаний на
основе лексикографического описания является достаточно широко распространенной
современной технологией. Существует множество как теоретических разработок
этого метода, так и примеров практической реализации лексикографических систем.
Построение словарей является
профессиональной деятельностью специалистов-лексикографов. Вместе с тем
словарный способ представления знаний доступен и для не лексикографов, он
оказывается весьма эффективным в узкоспециализированных предметных областях,
которые, как правило, недоступны лингвистам. Повсеместное использование
лексикографической технологии для формализации знаний требует разработки ее инструментария:
теоретического обоснования ее как универсальной методологии, разработки
практических методик построения словарей и инструментальных средств поддержки
теоретических и практических разработок.
Одной из фундаментальных работ по
систематизации и классификации словарей является работа Ю.Н.Караулова
“Лингвистическое конструирование и тезаурус литературного языка”
[Караулов,1981]. В этой работе строится система лексикографических параметров
словарей, на основе которой осуществляется их типология, вводятся понятия
лингвистического объекта и лингвистического конструирования, а также
универсального словаря.
Система лексикографических
параметров словарей
представляет собой так называемую “матрицу покрытия”. В этой матрице можно
выделить следующие элементы:
Перечень параметров — столбцы
матрицы (выделяется 67 лексикографических параметров).
Поле анализа представляет собой, с
одной стороны, столбцы матрицы, включающие варьирование значений параметров от
языка к языку и способ их задания и глубины раскрытия, а с другой стороны, ряды
матрицы, объединяющие определенные значения параметров в конкретном языке и
показывающие их глубину в данном словаре.
Пересечение рядов и столбцов
демонстрирует “поле возможных решений” и дает материал для комбинирования,
экстраполяции и обнаружения иных комбинаций параметров при конструировании
новых лексикографических объектов.
Такая система параметров, по мнению
Ю.Н.Караулова, является необходимой и достаточной для описания всех
существующих сегодня лексикографических работ (словарей). Более того,
комбинирование соответствующих параметров дает возможность конструировать новые
типы словарей.
Предложенная схема параметризации
словарей достаточно формальна, т.е. задан вполне конкретный базис, который
служит основой для создания системы организации знаний. Однако для
представления знаний необходима информация о семантической связанности объектов
предметной области, представленных в словаре соответствующими терминами и
понятиями.
Лингвистическое конструирование — это особое направление исследовательской
деятельности, целью которой является построение новых лингвистических объектов
с заданными свойствами. “Лингвистическое конструирование — это
совокупность обобщенных способов и приемов компиляции и комбинирования
“образцов решения проблем”, экстраполяции уже имеющихся, готовых теоретических
и практических результатов, полученных в разных областях лингвистики и их
прямого или эвристического использования для преодоления трудностей и решения
проблем, возникающих в тех или других областях при построении новых
лингвистических объектов” [Караулов,1981. С.16].
Лингвистическим объектом называется “такое представление фактов,
языковых данных, которое генерирует новую информацию о языке. Как правило,
такие объекты получаются не в результате описания некоторого материала, а
возникают как результат эксперимента, причем эксперимента, понимаемого широко”
[Караулов,1981. С.16].
Фактически речь идет о том, что мы
имеем два типа новых лингвистических объектов: во-первых, новым лингвистическим
объектом является результат информационной лексикографической технологии;
во-вторых, новым лингвистическим объектом является деятельность лексикографа,
материализованная в наборе операций [Филиппович, 1997].
Под универсальным словарем
понимается словарь, который ориентирован на решение специфических задач той
лексикографической отрасли, к которой он относится, и должен обладать рядом
свойств, относящихся ко всем отраслям [Караулов,1981]. Постановка вопроса о
создании универсального словаря, т.е. словаря, способного вместить максимум
информации данной предметной области, имеет под собой определенные основания,
связанные с уровнем развития мировой лексикографии и с тенденцией
лексикографической параметризации языка. Формой универсального словаря является
тезаурус.
Определение и структура тезауруса. Классическое толкование тезауруса в научной
литературе состоит в определении его как словаря особого типа, отражающего
словарный состав языка в полном объеме6 . Структура хорошо
разработанного тезауруса подробно описывается в [Караулов,1981. С. 220–221].
Анализ понятия тезауруса. Понятие тезауруса может толковаться
расширительно, если в качестве языковых единиц, представляемых в нем
рассматривать предложения, сверхфразовые единства и тексты. В этом случае
тезаурус будет являться своеобразным гипертекстом, т.е. естественно-языковым
описанием.
В качестве элементов тезауруса можно
рассматривать отдельные суждения, а в качестве семантических отношений выбрать
логические операции, тогда тезаурус будет представлять собой некий свод
возможных логических рассуждений, некоторую логическую модель определенной
мыслительной деятельности.
Понимание тезауруса как максимально
полного собрания слов языка расширяет его лексический состав путем включения в
него не только слов литературного языка данной эпохи, но и архаизмов,
неологизмов, слов высокого слога, просторечные слова, иноязычную лексику, а
также областные слова. Однако такое определение стирает различия между
тезаурусом и другими словарями. Более того, в этом смысле к тезаурусам относятся
все типы идеографических словарей (тематические, аналогические, собственно
идеографические).
Тезаурус является лексическим
инструментом информационно-поисковых систем. Он состоит из контролируемого, но
изменяемого словаря терминов, между которыми указаны смысловые связи. Такой
словарь исчерпывающим образом покрывает некоторую специфическую область знаний,
представляет собой перечень дескрипторов и недескрипторов (вспомогательных
слов), который упорядочен по систематическому и алфавитному принципу и отражает
смысловые отношения как иерархического типа (например, “родо-видовые”), так и
неиерархического типа. Если в общепринятом определении специальных тезаурусов
как общетехнических и информационно-поисковых классификаторов и рубрикаторов
снять терминологические и отраслевые ограничения, то принципиальной разницы
между общеязыковым и информационно-поисковым тезаурусом нет [Караулов, 1981].
Зафиксированный набор языковых единиц (слов и словосочетаний)
информационно-поискового тезауруса и правила их соотнесения друг с другом
(исчисления отношений), в особенности, если это касается терминологической
лексики, может быть приравнен к некоторому информационно-поисковому языку,
формально-языковой системе.
Приведенный анализ позволяет сделать
вывод о том, что тезаурусный способ представления знаний при расширительном его
понимании может рассматриваться и как текстовое описание (гипертекстовое), и
как лексикографическое (универсально-словарное), и как формально-языковое.
Определение и свойства
словарно-тезаурусного описания
Будем рассматривать тезаурусное
представление знаний как основу обобщенной формы представления знаний. Введем
понятие словарно-тезаурусного описания (СТО) как обобщенный метод формализации
знаний и его результат.
Словарно-тезаурусное описание —
это метод и результат формализации знаний субъекта о ПОРМ на основе
естественных и формальных языковых систем, в виде множества специфицированных
лингвистических объектов и языковых единиц, связанных между собой
синтагматическими и парадигматическими отношениями.
Словарно-тезаурусная система
является открытой системой, поскольку по своей сути должна содержать
изменяемый состав знаний субъекта о ПОРМ.
В сравнении с другими методами
формализации знаний словарно-тезаурусное описание является интегрированным представлением.
Содержит многоаспектные спецификации как отдельных языковых единиц, так и
сконструированных на их основе лингвистических объектов. Информации, которая
находится в словаре-тезаурусе, должно быть достаточно для отражения всех
аспектов представляемой предметной области. Это достигается путем
соответствующего комбинирования лексикографических параметров и установления
разнообразных парадигматических отношений между элементами словаря.
Поскольку общеязыковой тезаурус
принципиально не отличается от информационно-поискового, то СТО фактически
является формально-языковой системой для построения справочных систем
(индексирования) и последующего эффективного доступа к информации. Это
достигается в том числе за счет свойства многовходовости тезауруса (как
минимум два: алфавитный и систематический).
Конкретность знания,
формализованного в СТО, не предполагает его зависимости от технологии
формализации (=инструментария), т.е. гранулированность знания позволяет
использовать независимые методы анализа, организации и извлечения
знаний.
СТО может быть настроено на
определенный набор конкретных параметров у лингвистических объектов, что
обеспечивает внешние метаморфозы представляемого в нем знания.
1 Возможно первым, кто ввел понятие автоформализация
знаний, был Г.Р.Громов, в книге “Национальные информационные ресурсы:
Проблемы промышленной эксплуатации”[Громов,1982], исследуя феномен
“персональных вычислений”, он определил как “альтернативную информационную
технологию — технологию автоформализации профессиональных знаний” [Громов,1993.
С.148].
2 ТЕКСТ (от лат. textus — ткань,
соединение), (1) Последовательность предложений, слов (в семиотике — знаков),
построенная согласно правилам данного языка, данной знаковой системы и
образующая сообщение. (2) Словесное произведение; в художественной литературе —
законченное произведение либо его фрагмент, составленный из знаков
естественного языка (слов) и сложных эстетических знаков (слагаемых
поэтического языка, сюжета, композиции и т. д.) [СЭС, 1980].
Т. — объединенная смысловой связью
последовательность знаковых единиц, основными свойствами которой являются
связность и цельность. В семиотике под тестом понимается осмысленная
последовательность любых знаков, любая форма коммуникации ... в языкознании
текст — последовательность вербальных (словесных) знаков. Правильность
построения вербального текста, который может быть устным и письменным, связана
с соответствием требованиям текстуальности — внешней связности, внутренней
осмысленности, возможности своевременного восприятия, осуществления необходимых
условий коммуникации и др. [ЭРЯ, 1997. Текст. Т.М.Николаева].
3 Лексикография (от греч. lexikos —
относящийся к слову и grapho — пишу) является разделом языкознания,
занимающейся теорией и практикой составления словарей. Теория лексикографии
классифицирует словари на языковые и энциклопедические.
Типология языковых словарей
определяется в основном двумя факторами: составом и количеством объясняемых
слов, т.е. словником словаря, и содержанием объяснения слова
(набор синонимов; описательное толкование и др.). Различаются словари
одноязычные и переводные. В характеристике слова в современных словарях большое
место занимают различного рода пометы, пояснения и справки: этимологические,
орфографические, орфоэпические, грамматические, стилистические, а также
типичные словосочетания, иллюстративные примеры из текстов, фразеологические
обороты. Объясняемое слово, называемое заголовочным, или заглавным,
словом, а также те сведения, которые о нем сообщаются в словаре, составляют
так называемую словарную статью. Все множество словарных статей и есть
словарь. По порядку расположения заглавных слов словари подразделяются на
алфавитные (в них слова располагаются в алфавитном порядке заголовочных слов) и
гнездовые (где после основного слова приводятся его производные и однокоренные
слова).... Непосредственными предшественниками словарного описания знаний
являлись глоссы ,т.е. объяснения значений отдельных слов на полях древних
текстов. Сборники глосс (глоссарии) были первыми лексикографическими описаниями[ЭРЯ,
1997. Лексикография. Р.М.Цейтлин].
Энциклопедические словари
(энциклопедии) представляют собой научные или популярные издания
систематизированного свода знаний в каких-либо областях. В энциклопедиях даются
объяснения (описания) не слов, а понятий, терминов, предметов, явлений,
событий, личностей и т.п. Различают универсальные, отраслевые, региональные,
одно- и многотомные, биографические, персоналий и др. Словарная статья
энциклопедических словарей отражает научные классификационные признаки объясняемого
понятия, термина, предмета и т.д. [ЭРЯ, 1997. Словари энциклопедические.
И.К.Сазонова].
Фактически энциклопедические словари
могут быть отнесены в нашем рассмотрении также и к методам организации
знаний.
4 наблюдение, целенаправленное
восприятие, обусловленное задачей деятельности ... Основное условие научного
наблюдения — объективность, т. е. возможность контроля путем либо повторного
наблюдения, либо применения иных методов исследования (напр., эксперимента).
[БЭКМ, 1998].
5 эксперимент (от лат. experimentum —
проба, опыт), метод познания, при помощи которого в контролируемых и
управляемых условиях исследуются явления природы и общества [БЭКМ, 1998].
6 тезаурус (от греч. thesauros —
сокровище),
(1) словарь, в
котором максимально полно представлены слова языка с примерами их употребления
в тексте (в полном объеме осуществим лишь для мертвых языков);
(2) словарь, в
котором слова, относящиеся к какой-либо области знания, расположены по
тематическому принципу и показаны семантические отношения (родовидовые,
синонимические и др.) между лексическими единицами. В информационно-поисковых
тезаурусах лексические единицы текста заменяются дескрипторами [БЭКМ, 1998].