Студентка НГУ разработала алгоритм машинного перевода с русского языка на бурятский

Выпускница бакалавриата Института интеллектуальной робототехники НГУ Дари Батурова в ходе выполнения выпускной квалификационной работы создала русско-бурятский и русско-монгольский параллельный корпус. 

Параллельный корпус — собрание текстов на одном языке вместе с переводом на другой язык. Он состоит из пар текстов на двух языках — оригинал и перевод. Помимо этого параллельный корпус может состоять из пар отдельных предложений. 

Также она обучила две модели для русско-бурятского перевода и сравнила их с лучшей моделью из ранее существовавших для данной задачи. Выяснилось, что по результатам оценки, одна из моделей, обученных молодой исследовательницей, превзошла другие существующие ранее аналоги.

 — Основная сложность состояла в том, что бурятский язык является малоресурсным. В онлайн-переводчиках он не представлен. В Интернете можно найти разве что электронные словари или разговорники. По этой причине собрать данные для создания параллельного корпуса было затруднительно. Молодежь не выражает сильной заинтересованности в сохранении и продвижении бурятского языка, передача его из поколения в поколение, к сожалению, происходит все реже. Согласно переписи населения России, в 2002 году 79% бурят указали, что владеют бурятским языком, в 2020 же году – 63%. А между тем бурятский язык внесен в «Атлас языков мира, находящихся под угрозой исчезновения» ЮНЕСКО со статусом «есть угроза исчезновения», — пояснила Дари Батурова.  

Девушка убеждена, что для сохранения и продвижения бурятского языка необходимо внедрить его в цифровое пространство. Машинный перевод представляет собой один из способов цифровизации, но из-за ограниченности данных на бурятском языке возникает такая проблема, как сдвиг данных. Сдвиг данных происходит, когда модель машинного перевода обучается на наборе данных, который не охватывает все особенности семантики, лексики и синтаксиса данного языка, из-за чего модель может выдавать неточный перевод. Для решения данной проблемы необходимо исследовать методы оценивания неопределенности нейросетевой модели для обнаружения некорректных переводов.

 После выявления лучшей обученной модели, которая была основана на модели NLLB (No Language Left Behind), я проанализировала ее поведение при сдвиге данных с помощью методов оценивания неопределенности модели . Для этого был создан русско-бурятский параллельный корпус с аннотированными предложениями по типам ошибок, которые совершила данная модель при переводе текстов, содержащих специфические термины из научных областей. Он помог выделить лучшую метрику для определения уверенности модели в своих переводах и выявления возможных ошибок и галлюцинаций, — рассказала Дари Батурова.

Созданию алгоритма машинного перевода с русского языка на бурятский предшествовала серьезная подготовительная работа. Первыми помощниками стали родители студентки. Они поддерживали ее на всех этапах работы. Тему своей дипломной работы Дари Батурова выбрала еще в начале третьего курса и сразу занялась созданием русско-бурятского параллельного корпуса. За основу было решено взять тексты новостного информационного жанра. Благодаря гранту Республики Бурятия, который она получила ровно год назад, был заключен договор с тремя специалистами, которые с осени прошлого года занимались переводом новостных текстов. На сегодняшний день было переведено более 4 тысяч текстов, и работа в этом направлении продолжается. Ведется поиск новых переводчиков, сбор и обработка новых данных, а также дообучение нейросети.

Также помимо переводческой деятельности в рамках гранта проводился поиск уже существующих параллельных текстов. В результате было заключено сотрудничество с некоторыми организациями, находящимися в республике Бурятия, такими как Государственная служба языкового перевода Бурятии, Бурятский научный центр и другими. Они поделились имеющимися данными, которые были добавлены в параллельный корпус.

В рамках дипломной работы алгоритм, разработанный Дари Батуровой, представлен в виде кода. Однако девушка намерена преобразовать его в более доступный и удобный формат для будущих пользователей - сайт с русско-бурятским онлайн-переводчиком. С этой целью она объединила свои усилия с выпускницей Санкт-Петербургского университета Сараной Абидуевой, которая создала первую нейросетевую модель для русско-бурятского перевода в рамках своей дипломной работы. Благодаря совместной работе они создали первый в открытом доступе русско-бурятский параллельный корпус, состоящий из собранных данных в интернете и полученных текстов от различных организаций. В дальнейшем они планируют усовершенствовать алгоритм для русско-бурятского перевода и разместить сайт с ним. Дари Батурова уверена, что этот ресурс будет полезен для носителей бурятского языка и людей, изучающих его, а также исследователей языка и культуры, лингвистов, переводчиков и всех, кто заинтересован в сохранении и продвижении бурятского языка.

Модель и русско-бурятский параллельный корпус, которые были созданы Дари Батуровой, будут доступны в скором времени на Hugging Face.



Материал подготовил: Елена Панфило, пресс-служба НГУ