Рассматривается новый способ извлечения понятий из текстов предметной области на основе комбинации анализа формальных понятий и бутстрап-технологии информационного поиска. Анализ формальных понятий представляет собой мощный аппарат автоматического вывода понятий предметной области, однако он рассчитан на высокое качество входных данных, без пропусков и неточностей. Получение таких наборов данных напрямую
из текстов затруднено в силу сильной разреженности текстовых корпусов. Соответственно, представляется перспективным улучшение качества входных данных за счет применения бутстраппинга – технологии, обеспечивающей интеллектуальный поиск фрагментированной информации в сети Интернет. Цель данной работы – показать, что при правильном выборе исходных шаблонов поиска бутстраппинг, основанный на использовании открытых ресурсов Интернета как ценных источников знаний, превращается в эффективный инструмент поддержки концептуального моделирования.
The article considers a new way of concept extraction from the subject domain texts based on combination of formal concept analysis and bootstrap technology of information retrieval. Formal concept analysis is a powerful way of automatically deriving the domain concepts, but it is designed for high quality input data, without missing and inaccuracies. Obtaining such datasets directly from texts is difficult because of the strong sparsity of the text corpora. Accordingly, it seems promising to improve the quality of input data with bootstrapping, a technology that provides an intelligent search for fragmented information on the Internet. In this paper, we show the steps of implementing the way of automatically concept extraction from medical texts based on the filling of blanks in highly sparse matrices of the joint occurrence of terms. The input data for formal concept analysis is represented in the form of an object-feature table that reflects the distribution of attributes over the objects of the domain. The purpose of this paper is to show that with proper selection of initial search patterns, bootstrapping based on the use of open Internet resources as valuable sources of knowledge, turns into an effective tool for supporting conceptual modeling.