Электронный архив НГУ

Выявление нечетких дубликатов при автоматическом формировании тематических коллекций документов на основе Web-публикаций

Показать сокращенную информацию

dc.contributor.author Загорулько, Юрий Алексеевич
dc.contributor.author Саломатина, Наталья Васильевна
dc.contributor.author Серый, Алексей Сергеевич
dc.contributor.author Сидорова, Елена Анатольевна
dc.contributor.author Шестаков, Владимир Константинович
dc.date.accessioned 2014-06-03T04:45:10Z
dc.date.available 2014-06-03T04:45:10Z
dc.date.issued 2013-12
dc.identifier.citation Загорулько Ю. А., Саломатина Н. В., Серый А. С., Сидорова Е. А., Шестаков В. К. Выявление нечетких дубликатов при автоматическом формировании тематических коллекций документов на основе Web-публикаций // Вестник НГУ. Серия: Информационные технологии. 2013. Т. 11, вып. 4. С. 59–70. ru_RU
dc.identifier.issn 1818-7900
dc.identifier.uri http://www.nsu.ru/xmlui/handle/nsu/1292
dc.identifier.uri http://www.nsu.ru/xmlui/bitstream/handle/nsu/1292/06-2013-V11-N4.pdf
dc.description.abstract Рассматриваются методы выявления нечетких дубликатов в тематических коллекциях документов, формируемых в автоматическом режиме на основе публикаций, полученных из сети Интернет. Основное внимание уделяется различным модификациям метода шинглов, который позволяет достаточно быстро выполнить сравнение большого количества текстов без их предварительной обработки, что особенно важно при первичном отборе текстов для коллекции. ru_RU
dc.description.abstract Approaches to detecting near-duplicates appearing in thematic text collections accumulated automatically on the basis of text documents obtained from the Internet are discussed. The paper is focused on various modifications of shingle algorithm since it allows comparing a large number of texts quickly and without any preprocessing. The latter is particularly important when forming collections of raw texts. en_EN
dc.description.sponsorship Работа выполнена при финансовой поддержке Министерства образования и науки Российской Федерации (договор № 02.G25.31.0054). ru_RU
dc.language.iso ru ru_RU
dc.publisher Новосибирский государственный университет ru_RU
dc.subject текстовые коллекции ru_RU
dc.subject методы сравнения текстов ru_RU
dc.subject метод шинглов ru_RU
dc.subject поиск нечетких дубликатов ru_RU
dc.subject веб-документы ru_RU
dc.subject веб-ресурсы ru_RU
dc.subject text collection en_EN
dc.subject text comparing en_EN
dc.subject shingle algorithm en_EN
dc.subject near-duplicate en_EN
dc.subject web documents en_EN
dc.subject web resources en_EN
dc.title Выявление нечетких дубликатов при автоматическом формировании тематических коллекций документов на основе Web-публикаций ru_RU
dc.title.alternative Detecting near-duplicates for automatically forming thematical text collections on the basis of web documents en_EN
dc.type Article
dc.description.reference 1. Зеленков Ю. Г., Сегалович И. В. Сравнительный анализ методов определения нечетких дубликатов для WEB-документов // Электронные библиотеки: перспективные методы и технологии, электронные коллекции: Тр. IX Всерос. науч. конф. Переславль-Залесский, 2007. Т. 1. С. 166–174. 2. Manber U. Finding Similar Files in a Large File System // Proc. USENIX WINTER Technical Conference. 1994. P. 1–10. 3. Broder A., Glassman S., Manasse M. Zweig G. Syntactic Clustering of the Web // Comput. Netw. ISDN Syst. 1997. Vol. 29. P. 1157–1166. 4. Fetterly D., Manasse M., Najor M. et al. A Large-Scale Study of the Evolution of Web Pages // ACM. 2003. P. 669–678. 5. Rabin M. Fingerprinting by Random Polynomials. Center for Research in Computing Technology. Harvard, 1981. 24 p. 6. Kołcz A., Chowdhury A. Lexicon Randomization for near-Duplicate Detection with I-Match // The Journal of Supercomputing. 2008. Vol. 45. Is. 3. P. 255–276. 7. Соченков И. В. Метод сравнения текстов для решения поисково-аналитических задач // Искусственный интеллект и принятие решений. 2013. Вып. 2. С. 32–43. ru_RU
dc.description.reference 1. Zelenkov Yu., Segalovich I. Comparative Analysis of Near-Duplicate Detection Methods of Web Documents // Proc. of IX All-Russian Research Conference RCDL’2007. Pereslavl-Zalesskij, 2007. Vol. 1. P. 66–174. 2. Manber U. Finding Similar Files in a Large File System // Proc. USENIX WINTER Technical Conference. 1994. P. 1–10. 3. Broder A., Glassman S., Manasse M. Zweig G. Syntactic Clustering of the Web // Comput. Netw. ISDN Syst. 1997. Vol. 29. P. 1157–1166. 4. Fetterly D., Manasse M., Najor M. et al. A Large-Scale Study of the Evolution of Web Pages // ACM. 2003. P. 669–678. 5. Rabin M. Fingerprinting by Random Polynomials. Center for Research in Computing Technology. Harvard, 1981. 24 p. 6. Kołcz A., Chowdhury A. Lexicon Randomization for near-Duplicate Detection with I-Match // The Journal of Supercomputing. 2008. Vol. 45. Is. 3. P. 255–276. 7. Sochenkov I. V. Text Comparison Method for a Search and Analytical Engine // Artificial Intelligence and Decision Making. 2013. Vol. 2. P. 32–43. en_EN
dc.relation.ispartofpages 59–70


Файлы в этом документе

Данный элемент включен в следующие коллекции

Показать сокращенную информацию