dc.contributor.author |
Татьяна Викторовна Батура |
ru_RU |
dc.contributor.author |
T. V. Batura |
en_EN |
dc.creator |
Институт систем информатики им. А. П. Ершова СО РАН |
ru_RU |
dc.creator |
AP Ershov Institute of Informatics Systems |
en_EN |
dc.date.accessioned |
2013-02-27T15:43:59Z |
|
dc.date.available |
2013-02-27T15:43:59Z |
|
dc.date.issued |
2012-02-27 |
|
dc.identifier.issn |
1818-7900 |
|
dc.identifier.uri |
https://lib.nsu.ru/xmlui/handle/nsu/258 |
|
dc.description.abstract |
Представлен обзор формальных методов установления авторства (атрибуции) текстов. В статье приведено описание наиболее известных программных систем для определения авторского стиля, ориентированных на русский язык, предпринята попытка произвести их сравнительный анализ, выявить особенности и недостатки рассмотренных подходов. При решении задачи определения авторства текстов наибольший интерес и наибольшую сложность представляет анализ синтаксического, лексико-фразеологического и стилистического уровней текста. Экспертный анализ авторского стиля является трудоемким процессом, поэтому в работе уделяется внимание именно формальным методам идентификации автора текста. В настоящее время для атрибуции текстов применяются подходы из теории распознавания образов, математической статистики и теории вероятностей, алгоритмы нейронных сетей, кластерного анализа и др. Среди проблем, затрудняющих исследования в области атрибуции, можно выделить проблему выбора лингвостилистических параметров текста и составления выборки эталонных текстов. Необходимо проводить дальнейшие исследования, направленные на поиск новых или совершенствование уже имеющихся методов атрибуции текстов, поиск характеристик, позволяющих четко разделять стили авторов, в том числе на коротких текстах и на малых объемах выборки. |
ru_RU |
dc.description.abstract |
This paper reviews the methods used for attribution of texts. The paper also provides a description of the popular
software systems to determine the author's style, focused on the Russian language. An attempt was made to produce their
comparative analysis, to identify features and drawbacks of approaches. The analysis of syntactic, lexical-phraseological
and stylistic levels of text is the most interesting and the most difficult. Expert analysis of the author's style is a time consuming
process, so the attention is paid to the formal methods of attribution. Currently, for establishing the authorship of
texts following methods are used: the approaches of pattern recognition theory, methods of mathematical statistics and
probability theory, neural network algorithms, cluster analysis algorithms, etc. Among the problems hampering research
on attribution, the problem of choice of text parameters and sampling problem of reference texts are important. Further
research is needed to find a new or improving of existing methods of text attribution, to search for characteristics that
clearly separate styles of the authors, including short texts and small sample size. |
en_EN |
dc.language.iso |
ru |
|
dc.publisher |
Новосибирский государственный университет |
ru_RU |
dc.subject |
атрибуция текста |
ru_RU |
dc.subject |
определение авторства |
ru_RU |
dc.subject |
формальные параметры текста |
ru_RU |
dc.subject |
авторский стиль |
ru_RU |
dc.subject |
классификация текстов |
ru_RU |
dc.subject |
classification of texts |
en_EN |
dc.subject |
author's style |
en_EN |
dc.subject |
formal parameters of the text |
en_EN |
dc.subject |
authorship attribution |
en_EN |
dc.subject |
text attribution |
en_EN |
dc.title |
Формальные методы определения авторства текстов |
ru_RU |
dc.title.alternative |
Formal methods of authorship attribution |
en |
dc.type |
Article |
|
dc.description.reference |
1. Романов А. С. Методика и программный комплекс для идентификации автора неизвестного текста: Автореф. дис. … канд. техн. наук. Томск, 2010. 26 с.
2. Рогов А. А., Гурин Г. Б., Котов А. А., Сидоров Ю. В., Суровцова Т. Г. Программный комплекс СМАЛТ // Электронные библиотеки: перспективные методы и технологии, электронные коллекции: Труды Х Всерос. науч. конф. «RCDL'2008». Дубна, 2008. С. 155–160.
3. Марков А. А. Об одном применении статистического метода // Известия Императорской Академии наук. Сер. 6. 1916. Т. 10, № 4. С. 239–242.
4. Фоменко В. П., Фоменко Т. Г. Авторский инвариант русских литературных текстов // Новая хронология Греции: Античность в Средневековье. М.: МГУ, 1995. 422 с.
5. Хмелёв Д. В. Распознавание автора текста с использованием цепей А. А. Маркова // Вестн. МГУ. Сер. 9: Филология. 2000. № 2. С. 115–126.
6. Хмелёв Д. В. Классификация и разметка текстов с использованием методов сжатия данных // Все о сжатии данных, изображений и видео. 2003. URL: http://compression.ru/download/articles/classif/intro.html
7. Кукушкина О. В., Поликарпов А. А., Хмелев Д. В. Определение авторства текста с использованием буквенной и грамматической информации // Проблемы передачи информации. М.: Наука, 2001. Т. 37, № 2. С. 96–108.
8. Шевелёв О. Г. Разработка и исследование алгоритмов сравнения стилей текстовых произведений: Автореф. дис. … канд. техн. наук. Томск, 2006. 18 с.
9. Севбо И. П. Графическое представление синтаксических структур и стилистическая диагностика. Киев: Наук. дум., 1981. 192 с.
10. Мартыненко Г. Я. Основы стилеметрии. Л.: ЛГУ, 1988. 170 с.
11. Рогов А. А., Сидоров Ю. В., Король А. В. Автоматизированная система обработки и анализа литературных текстов СМАЛТ // Труды и материалы II Междунар. конгресса исследователей русского языка «Русский язык: исторические судьбы и современность». М: МГУ, 2004. С. 485–486.
12. Морозов Н. А. Лингвистические спектры: средство для отличения плагиатов от истинных произведений того или другого известного автора. Стилеметрический этюд // Известия Отдела русского языка и словесности Императорской Академии наук. 1915. Т. 20, кн. 4. С. 93–127.
13. Шевелёв О. Г. Методы автоматической классификации текстов на естественном языке: Учеб. пособие. Томск: ТМЛ-Пресс, 2007. 144 с.
14. Романов А. С., Мещеряков Р. В. Идентификация автора текста с помощью аппарата опорных векторов // Компьютерная лингвистика и интеллектуальные технологии: по материалам ежегодной Международной конференции «Диалог-2009». М.: РГГУ, 2009. Вып. 8, № 15. С. 432–437. |
ru_RU |
dc.subject.udc |
519.68; 681.513.7; 612.8.001.57; 007.51.52 |
|
dc.relation.ispartofvolume |
10 |
|
dc.relation.ispartofnumber |
4 |
|
dc.relation.ispartofpages |
81-94 |
|