Мультимодальный датасет для выделения краткого содержания научных статей на русском языке разработала выпускница междисциплинарного направления математической лингвистики Гуманитарного института Новосибирского государственного университета – Алена Цанда в рамках своей выпускной квалификационной работы «Разработка мультимодального корпуса для задачи автоматического реферирования научных статей на русском языке». Разработка молодой исследовательницы стала первым подобным датасетом для работы с русскоязычными научными текстами, размещенным в открытом доступе.
Молодая исследовательница подчеркнула, что в открытом доступе довольно много русскоязычных датасетов, которые создавались для суммаризации новостей, однако они все равно включают лишь текстовую модальность. Для научного домена подобных датасетов в открытом доступе обнаружено не было.
— Наш мультимодальный датасет создавался для суммаризации текстов, главной идеей которой является генерация краткого содержания. Данная задача, в частности, для научных текстов, становится всё более актуальной в связи с растущим количеством информации в Интернете. Любая процедура написания научной статьи включает в себя создание аннотации к работе, которая позволяет читателям быстро уловить суть без необходимости полного прочтения текста. Существующие системы суммаризации генерируют краткое содержание на основе лишь текстовой информации. Мы предполагаем, что графическая информация, которой сопровождаются почти все научные статьи, — таблицы, графики и рисунки с описаниями, —позволит улучшить качество аннотаций. Этим и была обусловлена наша идея разработать датасет для данной задачи и сделать его мультимодальным, — рассказала Алена Цанда.
Датасеты — наборы данных, которые используются в различных видах анализа и машинного обучения. Особенностью данного датасета является мультимодальность, то есть включение разных типов информации — текстовой и графической.
Мультимодальность — это своего рода тренд в области искусственного интеллекта, и в настоящее время появляется все больше и больше мультимодальных моделей. Данных для обучения и тестирования подобных моделей не хватает, особенно для более узких задач и малоресурсных языков.
На данный момент в датасете собрано и обработано 480 статей, каждая из которых представляет собой отдельную директорию. Текстовая информация статьи сохранена в текстовых файлах, включающих название работы, аннотацию к ней и ее полный текст. Графическая информация — все рисунки и таблицы в статьях— сохранялась вручную в виде скриншотов. Описания рисунков и таблиц представлены в формате JSON. Этот текстовый формат легко читается как людьми, так и машинами. Всего в датасете описано 496 рисунков и 279 таблиц.
Алена Цанда работала над мультимодальным датасетом вместе со своим научным руководителем старшим преподавателем кафедры фундаментальной и прикладной лингвистики, кандидатом технических наук Еленой Бручес. Совместно они написали статью для участия в международной конференции по искусственному интеллекту AINL 2024.
— Создание датасетов вручную всегда требует много ресурсов как временных, так и человеческих. А разработка мультимодального датасета — это еще более сложная задача, так как сбор и описание графической информации довольно сложно автоматизировать. Сначала нами была выработана некоторая инструкция по сбору данных. Затем, согласовав источники и методологию, мы приступили к работе. Данные собирались вручную из научных журналов, находящихся в открытом доступе, при этом к статьям нами выдвигались некоторые требования. Например, статья должна была содержать преимущественно текстовую информацию и минимум вставок на иностранном языке. Одной из сложностей в нашей работе стала автоматизация процесса сбора данных. При парсинге PDF файлов мы столкнулись с неправильной конвертацией символов, что существенно снижало качество данных. По этой причине самым быстрым способом оказался сбор данных вручную, потому что в любом случае получившийся текст пришлось бы отсматривать на ошибки. Существенные сложности возникли и при обработке технических статей, содержащих обилие математических формул. Такие фрагменты статей целесообразно хранить в LaTeX формате, это направление нашей будущей работы, — объяснила Алёна Цанда.
На своем датасете разработчики протестировали популярные большие языковые модели: Gigachat (SBER), YandexGPT (Яндекс) и GPT-3.5 Turbo (OpenAI). Код обращения к моделям с примерами запуска доступен в их репозитории. Они отдельно выделили заключительные разделы статей и посмотрели, насколько те соотносятся с аннотациями.
На полученных аннотациях Алена Цанда и Елена Бручес посчитали различные метрики качества генерации текстов как нейросетевые, так и традиционные. Любопытным выводом оказалось то, что по нейросетевым метрикам, глубже понимающим смысл текста, языковые модели справились лучше базового подхода. Однако по традиционным метрикам, учитывающим только синтаксис, заключительные разделы статей оказались наиболее близкими к аннотациям.
— Интересным моментом в тестировании была такая особенность современных языковых моделей, как цензура. Цензура необходима для обеспечения безопасности систем искусственного интеллекта. Модель Gigachat, к примеру, посчитала неэтичными 59% статей датасета. У нас не было цели обойти ограничения модели, поэтому мы работали с тем, что ей удалось сгенерировать. Помимо этого, мы также обнаружили, что модели по-разному справляются с разными научными областями, и посчитали метрики отдельно для каждого домена, — рассказала Алена Цанда.
Датасет можно использовать в том виде, в котором он представлен сейчас, однако исследовательницы планируют продолжить работу над ним. В частности, расширить датасет такими техническими областями, как математика и физика. Они поясняют, что трудности обработки подобных статьей связаны с хранением большого количества формул, что до сих пор является нерешенным вопросом. Кроме того, таблицы в датасете представлены в формате PNG, однако для удобства использования было бы полезно перевести их в формат для представления табличных данных, такой как CSV. Алена планирует на основе собранных данных попробовать другие подходы к суммаризации текстов, а также создать свой инструмент для генерации аннотаций к научным статьям.
Датасет Алены Цанда находится в открытом доступе и доступен по ссылке: https://github.com/iis-research-team/summarization-dataset. Чтобы им воспользоваться, его можно скачать в виде архива или клонировать репозиторий себе в проект. На этих данных можно как дообучить, так и протестировать свою модель. С метриками отдельно для каждого домена можно подробнее ознакомиться в статье Алены Цанда и Елены Бручес по ссылке: https://arxiv.org/abs/2405.07886