Выпускница бакалавриата Института интеллектуальной робототехники НГУ Дари Батурова в ходе выполнения выпускной квалификационной работы создала русско-бурятский и русско-монгольский параллельный корпус.
Параллельный корпус — собрание текстов на одном языке вместе с переводом на другой язык. Он состоит из пар текстов на двух языках — оригинал и перевод. Помимо этого параллельный корпус может состоять из пар отдельных предложений.
Также она обучила две модели для русско-бурятского перевода и сравнила их с лучшей моделью из ранее существовавших для данной задачи. Выяснилось, что по результатам оценки, одна из моделей, обученных молодой исследовательницей, превзошла другие существующие ранее аналоги.
— Основная сложность состояла в том, что бурятский язык является малоресурсным. В онлайн-переводчиках он не представлен. В Интернете можно найти разве что электронные словари или разговорники. По этой причине собрать данные для создания параллельного корпуса было затруднительно. Молодежь не выражает сильной заинтересованности в сохранении и продвижении бурятского языка, передача его из поколения в поколение, к сожалению, происходит все реже. Согласно переписи населения России, в 2002 году 79% бурят указали, что владеют бурятским языком, в 2020 же году – 63%. А между тем бурятский язык внесен в «Атлас языков мира, находящихся под угрозой исчезновения» ЮНЕСКО со статусом «есть угроза исчезновения», — пояснила Дари Батурова.
Девушка убеждена, что для сохранения и продвижения бурятского языка необходимо внедрить его в цифровое пространство. Машинный перевод представляет собой один из способов цифровизации, но из-за ограниченности данных на бурятском языке возникает такая проблема, как сдвиг данных. Сдвиг данных происходит, когда модель машинного перевода обучается на наборе данных, который не охватывает все особенности семантики, лексики и синтаксиса данного языка, из-за чего модель может выдавать неточный перевод. Для решения данной проблемы необходимо исследовать методы оценивания неопределенности нейросетевой модели для обнаружения некорректных переводов.
— После выявления лучшей обученной модели, которая была основана на модели NLLB (No Language Left Behind), я проанализировала ее поведение при сдвиге данных с помощью методов оценивания неопределенности модели . Для этого был создан русско-бурятский параллельный корпус с аннотированными предложениями по типам ошибок, которые совершила данная модель при переводе текстов, содержащих специфические термины из научных областей. Он помог выделить лучшую метрику для определения уверенности модели в своих переводах и выявления возможных ошибок и галлюцинаций, — рассказала Дари Батурова.
Созданию алгоритма машинного перевода с русского языка на бурятский предшествовала серьезная подготовительная работа. Первыми помощниками стали родители студентки. Они поддерживали ее на всех этапах работы. Тему своей дипломной работы Дари Батурова выбрала еще в начале третьего курса и сразу занялась созданием русско-бурятского параллельного корпуса. За основу было решено взять тексты новостного информационного жанра. Благодаря гранту Республики Бурятия, который она получила ровно год назад, был заключен договор с тремя специалистами, которые с осени прошлого года занимались переводом новостных текстов. На сегодняшний день было переведено более 4 тысяч текстов, и работа в этом направлении продолжается. Ведется поиск новых переводчиков, сбор и обработка новых данных, а также дообучение нейросети.
Также помимо переводческой деятельности в рамках гранта проводился поиск уже существующих параллельных текстов. В результате было заключено сотрудничество с некоторыми организациями, находящимися в республике Бурятия, такими как Государственная служба языкового перевода Бурятии, Бурятский научный центр и другими. Они поделились имеющимися данными, которые были добавлены в параллельный корпус.
В рамках дипломной работы алгоритм, разработанный Дари Батуровой, представлен в виде кода. Однако девушка намерена преобразовать его в более доступный и удобный формат для будущих пользователей - сайт с русско-бурятским онлайн-переводчиком. С этой целью она объединила свои усилия с выпускницей Санкт-Петербургского университета Сараной Абидуевой, которая создала первую нейросетевую модель для русско-бурятского перевода в рамках своей дипломной работы. Благодаря совместной работе они создали первый в открытом доступе русско-бурятский параллельный корпус, состоящий из собранных данных в интернете и полученных текстов от различных организаций. В дальнейшем они планируют усовершенствовать алгоритм для русско-бурятского перевода и разместить сайт с ним. Дари Батурова уверена, что этот ресурс будет полезен для носителей бурятского языка и людей, изучающих его, а также исследователей языка и культуры, лингвистов, переводчиков и всех, кто заинтересован в сохранении и продвижении бурятского языка.
Модель и русско-бурятский параллельный корпус, которые были созданы Дари Батуровой, будут доступны в скором времени на Hugging Face.