Электронный архив НГУ

О задании меры сходства для кластеризации текстовых документов

Показать сокращенную информацию

dc.contributor.author Барахнин, В.Б. ru_RU
dc.contributor.author Нехаева, В.А. ru_RU
dc.contributor.author Федотов, А.М. ru_RU
dc.contributor.author Barakhnin, V. B. en_EN
dc.contributor.author Nehaeva, V. A. en_EN
dc.contributor.author Fedotov, A. M. en_EN
dc.creator Институт вычислительных технологий СО РАН ru_RU
dc.creator Новосибирский государственный университет ru_RU
dc.creator Institute of Computational Technologies of the SB RAS en_EN
dc.creator Novosibirsk State University en_EN
dc.date.accessioned 2012-10-18T04:34:58Z
dc.date.available 2012-10-18T04:34:58Z
dc.date.issued 2008-06-11
dc.identifier.citation Барахнин В.Б., Нехаева В.А., Федотов А.М. О задании меры сходства для кластеризации текстовых документов // Вестник НГУ. Серия: Информационные технологии. 2008. Т. 6, вып. 1. С. 3–9,- ISSN 1818-7900 ru_RU
dc.identifier.citation Barakhnin V. B., Nekhayeva V. A., Fedotov A. M. Similarity Determination for Textual Documents Clusterization // Vestnik NSU:Information Technologies - 2008. Vol. 6, No. 1. pp. 3–9. - ISSN 1818-7900. en_EN
dc.identifier.issn 1818-7900
dc.identifier.uri http://www.nsu.ru/xmlui/handle/nsu/30
dc.description.abstract В работе решается задача автоматизации процесса отбора текстовых документов научной тематики, которые могут представлять интерес для конкретного ученого-исследователя или группы совместно работающих исследователей. В качестве шкал для определения меры предлагается брать атрибуты библиографического описания документов (авторы, ключевые слова, аннотация). Значения весовых коэффициентов в формуле для вычисления меры сходства определяются предполагаемой апостериорной достоверностью данных соответствующей шкалы. В качестве потенциально пригодных для решения поставленной задачи были проанализированы три классических метода кластеризации документов: кластеризация путем нахождения клик в полной матрице подобия документов, кластеризация по методу Роккио и метод, базирующийся на так называемом жадном алгоритме, а так-же новый алгоритм Н. Загоруйко, основанный на использовании функции конкурентного сходства (так называемой FRiS-функции). В ходе тестирования было выявлено, что оптимальным для данной задачи является FRiS-алгоритм, хотя приемлемые результаты дает и жадный алгоритм. ru_RU
dc.description.abstract The problem of computerized selection of textual documents on scientific subjects is solved that could be of interest for an individual researcher or a research team. Attributes of bibliographical description (authors, keywords, abstract) are proposed to be used as scales for the measure determination. The values of weight coefficients in the formula for calculating the similarity measure are determined by the assumed a posteriori reliability of the respective scale data. Three classical document clusterization methods have been analysed in order to find the ones potentially feasible for the solution of the formulated problem: clusterization by finding cliques in the full matrix of documents similarity, clusterization by Rocchio method and the method based on the so-called greed algorithm as well as the new method suggested by N.Zagoruiko based on employing the function of a rival similarity (the so-called FRiS-function). Testing showed that FRiS algorithm proved to be the most efficient one for this problem although the greed algorithm also yields acceptable results. en_EN
dc.language.iso ru
dc.publisher Новосибирский государственный университет ru_RU
dc.subject мера сходства ru_RU
dc.subject кластеризация текстовых документов ru_RU
dc.subject similarity en_EN
dc.subject clusterization of textual documents en_EN
dc.title О задании меры сходства для кластеризации текстовых документов ru_RU
dc.title.alternative Similarity Determination for Textual Documents Clusterization en
dc.type Article
dc.description.reference Барахнин В. Б., Куперштох А. А. Алгоритм координатного индексирования электронных научных документов // Тр. междунар. конф. «Вычислительные и информационные технологии в науке, технике и образовании». Казахстан, Павлодар, 20–22 сентября 2006. Павлодар, 2006.Т. 1. C. 228–232. Барахнин В. Б., Нехаева В. А. Технология создания тезауруса предметной области на ос- нове предметного указателя энциклопедии // Вычислительные технологии. 2007. Т. 12. Спец. вып. 2. С. 3–9. Борисова И. А., Загоруйко Н. Г. Функции конкурентного сходства в задаче таксономии // Материалы Всероссийской конференции с международным участие «Знания – Онтологии – Теории» (ЗОНТ–07), Новосибирск, 14–16 сентября 2007. Новосибирск, 2007. Т. 2. С. 67–76. Воронин Ю. А. Начала теории сходства. Новосибирск: Наука. Сиб. отд-ние, 1991. 128 с. Кормен Т. и др. Алгоритмы: построение и анализ / Т. Кормен, Ч. Лейзерсон, Р. М. Ривест. М.: МЦНМО, 2001. 960 с. Солтон Дж. Динамические библиотечно-информационные системы. М.: Мир, 1979. 560 с. ru_RU
dc.subject.udc 340.11(3)
dc.relation.ispartofpages 3 - 9


Файлы в этом документе

Данный элемент включен в следующие коллекции

Показать сокращенную информацию