CLAIM – научно-образовательный кластер |
|||||||||||||||
|
|||||||||||||||
Методика нейросетевой кластеризации корпуса текстовРазработчик: Стулов В.В., руководитель Филиппович А. Ю. Описание проектаЦель исследования - разработка методики автоматического выявления групп семантически похожих документов Назначение работы - методика предназначена для разработчиков систем информационного поиска. Задачи исследования:
Предметная областьПриведем формальное определение задачи кластеризации. Пусть X - множество объектов, Y - множество номеров (имён, меток) кластеров. Задана функция расстояния между объектами D(x_i,x_j) . Имеется конечная обучающая выборка объектов. Требуется разбить выборку на подмножества, называемые кластерами, так, чтобы каждый кластер состоял из объектов, близких по метрике D, а объекты разных кластеров существенно отличались. При этом каждому объекту приписывается номер кластера. Алгоритм кластеризации - это функция f: X->Y , которая любому объекту ставит в соответствие номер кластера. Множество Y в некоторых случаях известно заранее, однако чаще ставится задача определить оптимальное число кластеров, с точки зрения того или иного критерия качества кластеризации. Кластеризация текстов может быть использована для анализа и поиска в больших текстовых коллекциях, таких как web-страницы. В качестве примера применения кластеризации, рассмотрим поиска. С увеличением количества текстов коллекции усложняется задача навигации в списке документов, релевантных тексту запроса. Кластеризация результатов поиска позволяет как выявлять среди релевантных документов группы наиболее релевантных, так и семантически группировать релевантные группы в тематические кластеры, а также образовывать иерархию кластеров (таксономию). Кластеризация результатов поиска применяется в Интернет-поисковике nigma. В результате исследования разработана методика дивизимной иерархической кластеризации корпуса текстов. Ключевыми особенностями методики являются: использование ориентированной на семантику векторной модели текста, отсутствие предопределенной модели получаемой таксономии, применение нечеткой сети Кохонена для кластеризации на каждом уровне иерархии, отсутствие необходимости задания числа кластеров на каждом уровне иерархии, кластеризация ограниченного набора элементов, устранение ошибок классификации за счет введения процедуры слияния кластеров. Набор тестовых данныхВ качестве тестового набора данных выбран архив Reuters-21578 состоящий из новостей агентства Reuters за 1987 год. Данный архив используется во многих исследованиях для проверки качества разработанного алгоритма кластеризации. Приведем характеристики архива. Reuters-21578 распространяется в виде xml-файла и состоит из 21578 текстов категоризованных по 135 темам, 56 организациям, 267 персоналиям, 175 географическим точкам. При этом только 9494 текста принадлежат отдельной тематической категории, в то время как остальные либо принадлежат нескольким категориям сразу, либо не категоризованы тематически. Количество категорий, содержащих хотя бы один текст, не пренадлежащий ни одной другой категории - 66. Литература
|
|||||||||||||||
© НОК CLAIM. Замечания, вопросы и сведения об ошибках просим сообщать в форуме или присылать администратору сайта. |
|