Аннотации:
В современном мире эффективность научно-исследовательских работ в области естественных наук напрямую зависит от качества их информационного обеспечения, ориентированного, в основном, на расширенный поиск и оперативное получение нужной информации. Для таких динамично развивающихся областей современной науки, как, например, химия и катализ, развитие методик обработки текстовой информации, основанных на анализе терминологической азы предметной области (ПО) является актуальной задачей. Данная работа посвящена разработке теоретических основ и практических алгоритмов для автоматизированного извлечения и последующего анализа терминологической базы ПО, применительно к химическим наукам. Отличительными особенностями работы являются:
- Прямой анализ коллекций документов, представленных в формате pdf, общеупотребительным для научной периодики;
- Развитие техники L-граммного анализа для выделения устойчивых словосочетаний, являющихся кандидатами в термины ПО, применительно к последовательности упорядоченных по времени появления групп текстов, отражающих текущие состояния ПО;
- Разработка методов автоматизированной фильтрации словосочетаний, являющихся кандидатами в термины ПО. Данный этап особенно важен для такой области, как химия, поскольку в анализируемых текстах содержится большое количество различных формул, аббревиатур, названий веществ (которые могут содержать цифры, символы греческого и латинского алфавита, различные индексы).