Ученые Санкт-Петербургского государственного университета (СПбГУ) научили нейросеть распознавать речь людей, рассказывающих о сильном эмоциональном потрясении. Об этом сообщало ИТАР ТАСС — https://tass.ru/obschestvo/19822749. Лингвисты СПбГУ выбрали для обучения русскоязычную модель распознавания речи старшего преподавателя кафедры фундаментальной и прикладной лингвистики Гуманитарного института НГУ, научного сотрудника Лаборатории прикладных цифровых технологий Международного научно-образовательного математического центра НГУ Ивана Бондаренко. Они модифицировали нейросеть Wav2Vec 2.0, обучив ее на интервью с жертвами Холокоста, записанными фондом мемориального комплекса истории Холокоста Яд ва-Шем. Идея работы этой нейросети заключается в том, чтобы выучить сопоставление каждого звука устной речи человека соответствующей букве алфавита. О том, почему санкт-петербургские лингвисты выбрали именно эту модель распознавания речи и каковы особенности нейросети Wav2Vec 2.0, — рассказал Иван Бондаренко.
— Расскажите о своей модели распознавания речи — когда была создана, как работает, каковы ее особенности?
— Наша модель распознавания русской речи на базе нейросети типа Wav2Vec2 была создана осенью 2022 года в рамках проекта по разработке открытой системы автоматической расшифровки и обработки интервью. Ожидалось, что эта система будет полезна журналистам, сценаристам документальных пьес и кинолент, полевым социологам и вообще всем тем, кто в своей работе сталкивается с массовой обработкой звукозаписей интервью. Важной частью системы является модуль преобразования речи в текст, основной которого стала обученная нами модель. За основу мы взяли нейросеть Wav2Vec2-XLSR-53 для языконезависимого анализа речи, предварительно обученную восстанавливать пропущенные фрагменты речевого сигнала на одном из 53 языков мира. Мы дообучили ее распознавать именно русскую речь на основе более чем 1000 часов аннотированных звукозаписей из открытых речевых корпусов. Для дообучения использовался оригинальный авторский алгоритм, основанный на постепенном повышении сложности «заданий» и выстраиванию их иерархии. В итоге получилась нейросеть, весьма эффективно преобразующая речевой сигнал в текст на русском языке. Мы назвали нашу нейросеть Wav2Vec2-Large-Ru-Golos, отразив в этом названии то, что основой для ней послужила архитектура Wav2Vec2, а наибольший вклад в обучающую выборку внесли примеры из речевого корпуса Golos. Нейросеть Wav2Vec2-Large-Ru-Golos размещена на портале Huggingface https://huggingface.co/bond005/wav2vec2-large-ru-golos по лицензии Apache 2.0, предусматривающей свободное применение этой нейросети неограниченным кругом лиц для научных и коммерческих целей при условии упоминания авторства. Уровень ошибок в распознавании слов русского языка составляет от 6 до 30 % в зависимости от синтаксической сложности распознаваемой речи и специфичности употребляемой диктором лексики. Для сравнения: считается, что средний уровень ошибок в распознавании человеческой речи другим человеком составляет около 25 %.
Для еще большего снижения уровня ошибок мы сделали второй вариант этой нейросети, более «осведомленный» об устройстве языка и учитывающий лингвистический контекст, что позволило снизить вероятность ряда акустических ошибок, связанных с написанием безударных гласных (например, «карова» вместо «корова»), распознаванием фоновых шумов как шипящих согласных (например, «заказать с яблоки» вместо «заказать яблоки»), распознаванием именованных сущностей и другой редкой лексики (например, «сказался же дал» вместо «Скайлс ожидал»). Для учета лингвистической информации о правилах русского языка мы разработали специальную вероятностную модель на N-граммах, описывающую для каждой из них вероятность N-го слова при условии того, что уже известны предыдущие N − 1 слов. Представление естественного языка (в том числе и русского) гораздо удобнее делать именно такой вероятностной моделью, чем какой-либо детерминированной грамматикой. Приведу пример: слово «честных» после фразы «мой дядя самых» является весьма вероятным, но также на этом месте может быть и другое прилагательное (например, «строгих»), а вот появление какого-нибудь предлога «для» или существительного «котиков» практически невероятно (согласитесь, «мой дядя самых котиков» звучит несколько нелепо). Описание подобных правил с помощью N-грамм с вероятностями позволяет создать гораздо более компактную модель естественного языка, чем с помощью каких-либо формальных грамматик.
— Как вы думаете, почему для «обучения эмоциям» выбрали именно вашу модель распознавания речи?
— Существует несколько открытых моделей распознавания русской речи, но у нашей нейронной сети есть ряд преимуществ.
Во-первых, наша нейросеть не слишком требовательна к ресурсам и достаточно проста в использовании. Во-вторых, она обеспечивает высокое качество распознавания речи без дополнительной настройки. Согласно тестам компании Alpha Cephei, на апрель 2023 года нейросеть Wav2Vec2-Large-Ru-Golos-With-LM вошла в топ лучших открытых систем распознавания русской речи. В-третьих, нейросети Wav2Vec2-Large-Ru-Golos и Wav2Vec2-Large-Ru-Golos-With-LM легко дообучать решению более специализированных задач распознавания речи в ситуации, когда базового качества распознавания недостаточно. Как раз такая проблема стояла перед нашими коллегами из Санкт-Петербурга. Им необходимо было распознавать речь людей в условиях сильного эмоционального потрясения, что существенно влияет на акустику и синтаксис высказываний диктора. Наши нейросети требуют для этого сравнительно небольшую размеченную обучающую выборку — достаточно пары десятков часов аннотированной речи, а не сотни и уж тем более не тысячи часов. Вообще, способность к дообучению, то есть к эффективному переиспользованию прошлых «знаний», полученных на предыдущих циклах обучения, для решения новой задачи — это ключевое свойство глубоких нейронных сетей, которое обеспечило им «триумфальное шествие» в задачах искусственного интеллекта, начиная с 2010-х годов.
— Насколько, по вашему мнению, важна разработка ваших коллег из Санкт-Петербурга и где она может найти применение?
— Работа коллег-лингвистов Санкт-Петербургского государственного университета имеет очевидную пользу для автоматизации исторических исследований при обработке историками архивных звукозаписей мемориального комплекса истории Холокоста Яд ва-Шем, а также для анализа и поиска нужной информации в других русскоязычных звуковых архивах. Но, помимо этого, их исследование значимо для дальнейшего расширения возможностей разговорного искусственного интеллекта. Эмоциональная изменчивость присуща коммуникации между людьми, поэтому очень важно, чтобы в коммуникации между интеллектуальной машиной и человеком тоже учитывалась не только семантическая, но и эмоциональная составляющая. То, что сделали на кафедре математической лингвистики СПбГУ, — существенный шаг в этом направлении.
— Ранее нейросети умели «распознавать» эмоции или эта разработка — первый опыт?
— Попытки создать систему распознавания речи, устойчиво распознающую речь человека вне зависимости от его пола, возраста и эмоционального состояния, предпринимались уже давно. Задача распознавания речи плохо формализуется, что не позволяет эффективно использовать для ее решения формальные методы искусственного интеллекта типа продукционных правил, семантических онтологий и т.п. В такой ситуации обычно используется машинное обучение, но тут исследователей в области распознавания речи подстерегали проблемы: недостаточная «емкость» существовавших ранее моделей машинного обучения и слабая эффективность самого процесса обучения.
Если говорить простыми словами, речевой сигнал представляет собой сложную смесь семантического объекта (смысловых характеристик того, что говорит собеседник) и акустической среды, в которой этот объект существует. Далеко не каждый алгоритм машинного обучения способен найти такие корреляции между акустическими признаками речевого сообщения (входными данными) и его смысловым содержанием (целевой переменной), которые инвариантны относительно скорости, тембра и синтаксической структуры речи. Часто при машинном обучении обнаруживаются ложные корреляции: например, если модель распознавания речи обучалась только на голосах профессиональных чтецов аудиокниг, то она может «решить», что люди произносят только синтаксически корректные фразы спокойными и сравнительно монотонными голосами, и очень «удивляется» отрывистой, плачущей речи, речи с акцентом и т.п. И только глубокие нейронные сети, обучаемые с помощью стохастического градиентного спуска, способны к более эффективному обобщению знаний, представленных в обучающей выборке, и построению более инвариантных корреляций.
Тем не менее, даже при обучении глубоких нейронных сетей важную роль играет и то, как и в какой последовательности мы подаем обучающую информацию на вход нейронной сети. Обучение нейронной сети решению не одной, а сразу нескольких задач, иерархически связанных между собой, повышает инвариантность распознавания. Применительно к распознаванию речи иерархия задач может быть, например, образована задачей точной текстовой расшифровки речевого сообщения и подчиненной ей задачей определения общей тематики этого сообщения. Использование простых речевых высказываний (небольших по длительности звучания, с простым синтаксисом) на первых этапах обучения, а потом постепенное нарастание сложности, тоже является хорошей методикой, улучшающей обобщающую способность нейросети вне зависимости от возможных условий ее эксплуатации. Эти и некоторые другие подходы, применяемые в современном глубоком обучении (так называют обучение глубоких нейронных сетей), позволяют достигать результатов, невозможных при использовании иных, более «классических», методов.