dc.contributor.author |
Барахнин, В.Б. |
ru_RU |
dc.contributor.author |
Нехаева, В.А. |
ru_RU |
dc.contributor.author |
Федотов, А.М. |
ru_RU |
dc.contributor.author |
Barakhnin, V. B. |
en_EN |
dc.contributor.author |
Nehaeva, V. A. |
en_EN |
dc.contributor.author |
Fedotov, A. M. |
en_EN |
dc.creator |
Институт вычислительных технологий СО РАН |
ru_RU |
dc.creator |
Новосибирский государственный университет |
ru_RU |
dc.creator |
Institute of Computational Technologies of the SB RAS |
en_EN |
dc.creator |
Novosibirsk State University |
en_EN |
dc.date.accessioned |
2012-10-18T04:34:58Z |
|
dc.date.available |
2012-10-18T04:34:58Z |
|
dc.date.issued |
2008-06-11 |
|
dc.identifier.citation |
Барахнин В.Б., Нехаева В.А., Федотов А.М. О задании меры сходства для кластеризации текстовых документов // Вестник НГУ. Серия: Информационные технологии. 2008. Т. 6, вып. 1. С. 3–9,- ISSN 1818-7900 |
ru_RU |
dc.identifier.citation |
Barakhnin V. B., Nekhayeva V. A., Fedotov A. M.
Similarity Determination for Textual Documents Clusterization // Vestnik NSU:Information Technologies - 2008. Vol. 6, No. 1. pp. 3–9. - ISSN 1818-7900. |
en_EN |
dc.identifier.issn |
1818-7900 |
|
dc.identifier.uri |
https://lib.nsu.ru/xmlui/handle/nsu/30 |
|
dc.description.abstract |
В работе решается задача автоматизации процесса отбора текстовых документов научной тематики, которые
могут представлять интерес для конкретного ученого-исследователя или группы совместно работающих исследователей. В качестве шкал для определения меры предлагается брать атрибуты библиографического описания
документов (авторы, ключевые слова, аннотация). Значения весовых коэффициентов в формуле для вычисления
меры сходства определяются предполагаемой апостериорной достоверностью данных соответствующей шкалы.
В качестве потенциально пригодных для решения поставленной задачи были проанализированы три классических метода кластеризации документов: кластеризация путем нахождения клик в полной матрице подобия документов, кластеризация по методу Роккио и метод, базирующийся на так называемом жадном алгоритме, а так-же новый алгоритм Н. Загоруйко, основанный на использовании функции конкурентного сходства (так
называемой FRiS-функции). В ходе тестирования было выявлено, что оптимальным для данной задачи является
FRiS-алгоритм, хотя приемлемые результаты дает и жадный алгоритм. |
ru_RU |
dc.description.abstract |
The problem of computerized selection of textual documents on scientific subjects is solved that could be of interest
for an individual researcher or a research team. Attributes of bibliographical description (authors, keywords, abstract) are
proposed to be used as scales for the measure determination. The values of weight coefficients in the formula for calculating
the similarity measure are determined by the assumed a posteriori reliability of the respective scale data.
Three classical document clusterization methods have been analysed in order to find the ones potentially feasible for
the solution of the formulated problem: clusterization by finding cliques in the full matrix of documents similarity,
clusterization by Rocchio method and the method based on the so-called greed algorithm as well as the new method
suggested by N.Zagoruiko based on employing the function of a rival similarity (the so-called FRiS-function). Testing
showed that FRiS algorithm proved to be the most efficient one for this problem although the greed algorithm also yields
acceptable results. |
en_EN |
dc.language.iso |
ru |
|
dc.publisher |
Новосибирский государственный университет |
ru_RU |
dc.subject |
мера сходства |
ru_RU |
dc.subject |
кластеризация текстовых документов |
ru_RU |
dc.subject |
similarity |
en_EN |
dc.subject |
clusterization of textual documents |
en_EN |
dc.title |
О задании меры сходства для кластеризации текстовых документов |
ru_RU |
dc.title.alternative |
Similarity Determination for Textual Documents Clusterization |
en |
dc.type |
Article |
|
dc.description.reference |
Барахнин В. Б., Куперштох А. А. Алгоритм координатного индексирования электронных
научных документов // Тр. междунар. конф. «Вычислительные и информационные технологии в науке, технике и образовании». Казахстан, Павлодар, 20–22 сентября 2006. Павлодар,
2006.Т. 1. C. 228–232.
Барахнин В. Б., Нехаева В. А. Технология создания тезауруса предметной области на ос-
нове предметного указателя энциклопедии // Вычислительные технологии. 2007. Т. 12. Спец.
вып. 2. С. 3–9.
Борисова И. А., Загоруйко Н. Г. Функции конкурентного сходства в задаче таксономии //
Материалы Всероссийской конференции с международным участие «Знания – Онтологии –
Теории» (ЗОНТ–07), Новосибирск, 14–16 сентября 2007. Новосибирск, 2007. Т. 2. С. 67–76.
Воронин Ю. А. Начала теории сходства. Новосибирск: Наука. Сиб. отд-ние, 1991. 128 с.
Кормен Т. и др. Алгоритмы: построение и анализ / Т. Кормен, Ч. Лейзерсон, Р. М. Ривест.
М.: МЦНМО, 2001. 960 с.
Солтон Дж. Динамические библиотечно-информационные системы. М.: Мир, 1979. 560 с. |
ru_RU |
dc.subject.udc |
340.11(3) |
|
dc.relation.ispartofpages |
3 - 9 |
|