Стали известны результаты, полученные открытой системой «Писец» на ежегодной акции «Тотальный диктант», которая состоялась 20 апреля. Напомним, что «Писец» был разработан научным сотрудником Лаборатории прикладных цифровых технологий Международного научно-образовательного математического центра НГУ и сооснователем стартапа «Сибирские нейросети» Иваном Бондаренко. Впервые искусственный интеллект соревновался в грамотности с человеческим в рамках задачи диктанта, и создатель «Писца» предполагал, что положительной оценки тот не получит — скорее всего, система допустит минимум орфографических ошибок, однако с расставлением знаков препинания вряд ли справится.
Разработчикам «Писца» было важно собрать статистику о разнообразии совершаемых им ошибок и неточностей, чтобы в дальнейшем усовершенствовать систему. Результаты оказались неожиданными, но закономерными – «Писец» вполне удовлетворительно расставил запятые и разбил текст на абзацы. Для этого его специально научили улавливать в речи «кодовые фразы» вроде «пишем с красной строки» или «переходим на новый абзац». В этих целях использовалась отдельная нейросеть, обученная на базе Longformer выделять такие «внесюжетные» вставки наподобие системы NER (Named Entity Recognition - распознавание именованных сущностей). Для обучения использовался синтетический текстовый корпус. Сам же «Писец» использовал в своей работе связку Wav2Vec2-Large-Ru-Golos + Whisper-Podlodka (о Wav2Vec2-Large-Ru-Golos мы ранее писали https://www.nsu.ru/n/media/news/nauka/razrabotannuyu-professorom-ngu-model-raspoznavaniya-rechi-nauchili-razlichat-emotsii, а Whisper-Podlodka является новой моделью). Однако галлюцинаций избежать не удалось.
Галлюцинация — это ответ авторегрессионной нейросетевой модели языка, который корректен грамматически, но неверен семантически (не соответствует входному запросу по смыслу).
Проверяла диктант, написанный искусственным интеллектом, старший преподаватель кафедры источниковедения литературы и древних языков Гуманитарного Института НГУ Людмила Буднева.
— «Писцу» вполне можно было бы поставить твердую «тройку», если бы не несколько обстоятельств. Из 276 слов диктанта он пропустил 6, пять из которых стояли в конце предложения, причем в этих случаях он не ставил точку, но следующее предложение начинал с заглавной буквы. В одном месте пропустил предлог «в», шедший предпоследним в предложении. Еще 7 слов им было услышано неверно. Например, вместо «наивысшего» искусственный интеллект написал «наявившего». Другой пример словотворчества — «кальиончатых» вместо «клеенчатых». Встретилось и неверно услышанное выражение «Читай — не хочу». Вместо него написано «Считай, не хотите», свидетельствующее и о проблемах с грамматикой. С грамматикой обнаружились еще проблемы в написании окончаний — «синями» (вместо «синими») и «портрет ... гимназисткЕ» (правильно: «портрет … гимназистки»), что уже засчитывается за орфографическую ошибку. Еще одна «ослышка» привела к искажению смысла предложения, но в итоге было все же написано правильно. Это последнее предложение предпоследнего абзаца. «Писец» вместо «так» написал «та». Получилось сложносочиненное предложение, где он поставил запятую, в итоге возникла речевая ошибка. Аналогичная грамматическая ошибка: вместо слова «способны» написано «способный» и вышло «как способный лишь немногие», — разобрала ошибки «Писца» Людмила Буднева.
Был сделал вывод: в тех местах, где «Писец» все слова услышал верно, он написал диктант хорошо — на границе между «тройкой» и «четверкой». Такого результата его разработчики не ожидали.
— Результаты работы «Писца» оказались выше, чем прогнозировалось. Изначально он разрабатывался год назад для автоматического стенографирования звукозаписей интервью или защит диссертаций. Соответственно, даже 20-30 % ошибок в расшифрованных текстах — это уже тот уровень, который позволяет человеку гораздо быстрее подготовить чистовой текст стенограммы, чем если бы он писал его «с нуля», прослушивая запись полностью самостоятельно. Но для диктанта 20 % ошибок — это неприемлемо, это «двойка». Поэтому в последнюю неделю перед «Тотальным диктантом» мы занимались адаптацией «Писца» к специфике диктанта, а также вносили в него принципиальные улучшения, основанные на результатах наших исследований за последний год. Одно из таких улучшений — применение метода минимизации байесовского инвариантного риска вместо обычного в таких случаях метода минимизации эмпирического риска. Минимизация байесовского инвариантного риска позволяет повысить устойчивость обучаемой нейросети к т.н. «сдвигу распределений», когда распределения признаков речи в ходе эксплуатации начинают отличаться от тех распределений, которые имели место в обучающем речевом корпусе. Предполагается, что признаковое описание распознаваемого объекта содержит в себе как сущностные характеристики этого объекта, так и характеристики акустического и языкового «фона», среды. Благодаря минимизации байесовского инвариантного риска появляется возможность выделить инвариантные корреляции между целевой переменной и сущностными характеристиками объекта, абстрагируясь от среды. Но для этого необходимо сформулировать, что такое среда в задаче распознавания речи, и определить некоторую модель этой среды. Именно это и было главной исследовательской проблемой, которую мы решили при создании новой версии «Писца». Результаты новой версии на «Тотальном диктанте» подтверждают, что «Писец» стал инвариантнее и умнее, — объяснил Иван Бондаренко.
Опираясь на результаты «Писца», полученные на «Тотальном диктанте», разработчики уже наметили ближайшие направления исследований. В их числе повышение устойчивости Whisper-Podlodka к шумам различного рода, которые искусственно добавляются в сигнал с помощью системы аугментатора аудиофайлов (https://github.com/dangrebenkin/audio_augmentator), а также дальнейшее погружение в исследование метода минимизации байесовского инвариантного риска, исследование ограничений и слабых мест этого подхода, создание более эффективной модели среды с точки зрения акустики и лингвистики.