DSpace Repository

Кластеризация текстовых документов на основе составных ключевых термов

Show simple item record

dc.contributor.author Барахнин, Владимир Борисович ru_RU
dc.contributor.author Ткачев, Дмитрий Александрович ru_RU
dc.creator Институт вычислительных технологий СО РАН ru_RU
dc.creator Institute of Computational Technologies SB RAS en_EN
dc.creator Новосибирский государственный университет ru_RU
dc.creator Novosibirsk State University en_EN
dc.date.accessioned 2013-03-01T13:51:04Z
dc.date.available 2013-03-01T13:51:04Z
dc.date.issued 2013-03-01
dc.identifier.issn 1818-7900
dc.identifier.uri https://lib.nsu.ru/xmlui/handle/nsu/284
dc.description.abstract Классический подход к координатному индексированию текстов с целью их последующей кластеризации заключается в использовании средств анализа на основе тезауруса обрабатываемой предметной области. Но если вести речь об обработке корпусов текстов достаточно узких тематик, то в таких случаях требуются очень подробные тезаурусы, которые имеются (по крайней мере в широком доступе) далеко не для всех предметных областей. Подход же, основанный на извлечении ключевых выражений без априорных ограничений, носит гораздо более универсальный характер. Однако при таком подходе возникает проблема отбора ключевых термов. Цель данной работы заключается в демонстрации практических преимуществ кластеризации документов на основе ключевых словосочетаний по сравнению с популярной кластеризацией на основе анализа только однословных ключевых термов, при этом для выделения ключевых словосочетаний используются общедоступные программные средства, не требующие особых вычислительных затрат. ru_RU
dc.description.abstract The classical approach to the coordinate indexing texts with a view to their subsequent clustering is to use analysis tools based on the thesaurus treated he subject area. But if we talk about the processing of texts rather narrow topics, in such cases requires a very detailed thesauri, which are (at least, widely available), not for all subject fields. The approach is based on the extraction of key phrases without a priori constraints is much more universal. However, this approach has the problem of selection of key terms. The purpose of this article is to demonstrate the practical advantages of clustering documents based on key phrases compared to the very popular clustering based on the analysis of only one-word key terms. At the same time to highlight the key phrases used publicly available software tools that do not require special computing costs. en_EN
dc.language.iso ru
dc.publisher Новосибирский государственный университет ru_RU
dc.subject кластеризация текстовых документов ru_RU
dc.subject координатное индексирование ru_RU
dc.subject составные ключевые термы ru_RU
dc.subject composite key terms en_EN
dc.subject coordinate indexing en_EN
dc.subject clustering text documents en_EN
dc.title Кластеризация текстовых документов на основе составных ключевых термов ru_RU
dc.title.alternative Clustering of text documents based on composite key terms en
dc.type Article
dc.description.reference 1. Федотов А. М., Барахнин В. Б. К вопросу о поиске документов «по аналогии» // Вестн. Новосиб. гос. ун-та. Серия: Информационные технологии. 2009. Т. 7, вып. 4. С. 3–14. 2. Пескова О. В. Автоматическое формирование рубрикатора полнотекстовых документов // Тр. X Всерос. науч. конф. «Электронные библиотеки: перспективные методы и технологии, электронные коллекции» (RCDL’2008). Дубна, 7–11 октября 2008 г. С. 139–148. 3. Михайлов А. И., Черный А. И., Гиляревский Р. С. Основы информатики. М.: Наука, 1968. 4. Кормен Т., Лейзерсон Ч., Ривест Р. М. Алгоритмы: построение и анализ. М.: МЦНМО, 2001. 5. Барахнин В. Б., Нехаева В. А., Федотов А. М. О задании меры сходства для кластеризации текстовых документов // Вестн. Новосиб. гос. ун-та. Серия: Информационные технологии. 2008. Т. 6, вып. 1. С. 3–9. 6. Bezdek J. C., Pal N. R. Some New Indexes of Cluster Validity // IEEE Transactions On Systems, Man And Cybernetics. 1998. Vol. 28, No. 3. P. 301–315. 7. Halkidi M., Batistakis V., Vazirgiannis M. On Clustering Validation // Journal of Intelligent Information Systems. 2001. Vol. 17 (2/3). P. 107–145. ru_RU
dc.subject.udc 340.11(3)
dc.relation.ispartofvolume 8
dc.relation.ispartofnumber 2
dc.relation.ispartofpages 5-14


Files in this item

This item appears in the following Collection(s)

Show simple item record

Search DSpace


Advanced Search

Browse

My Account