Во время встречи в Кремле глава Российской академии наук (РАН) Александр Сергеев рассказал президенту страны Владимиру Путину, как с помощью искусственного интеллекта в Бурятии недавно расшифровали 500 страниц древних тибетских рукописей с точностью 94%. В ответ на описание перспектив применения метода для дешифровки около семи тысяч памятников древнемонгольской письменности, хранящихся на данный момент в центре восточных рукописей, глава государстве заявил, что в таком случае получится уникальный фонд мировой культуры.
Над масштабным проектом, реализованным на внебюджетные средства, трудились председатель Сибирского отделения РАН Валентин Пармон, генеральный директор АФК «Система» Владимир Евтушенков, сотрудники Институт монголоведения, буддологии и тибетологии СО РАН (ИМБТ СО РАН) Андрей Базаров и Олег Ринчинов, руководитель Центра искусственного интеллекта компании МТС Александр Ханин и сотрудники Новосибирского государственного университета Алексей Окунев и Кирилл Бродт.
— Сотрудник университета Кирилл Бродт подбирал модель машинного обучения, которая расшифровывает ксилографы, а также наши коллеги из НГУ обеспечили проект всей необходимой инфраструктурой, в том числе вычислительными мощностями и облачными сервисами. Сотрудники ИМБТ СО РАН размечали данные и составляли словарь терминов, т.е. словарь соответствия древнетибетских ксилографов и современной латинской транскрипции. На этих данных машинная модель была обучена, после чего производилась дешифровка текстов, — рассказал о вкладе новосибирских ученых директор Высшего колледжа информатики НГУ Алексей Окунев.
По словам преподавателя университета Кирилла Бродта, 94% – это неплохой результат, однако его все еще можно улучшить. Для этого ученым потребуется посмотреть, в каких областях машинная модель недостаточно обучена, и добавить в них данные с разметкой именно тех ксилографов, которые были пропущены или неверно учтены. Если исследователи повторят успешный опыт дешифровки для других языков, в дальнейшем можно будет задумываться о переводе на русский язык памятников, написанных на фактически любом древнем языке. И, по прогнозам Сергеева, произойти это может на протяжении жизни нынешнего поколения.
Алексей Окунев также сообщил, что в планах у команды проекта выложить обученную машинную модель в общий доступ, чтобы исследователи могли активно использовать ее для дешифровки древних памятников истории и литературы.