На площадке Новосибирского государственного университета состоялся ODS-митап по теме «NLU по-русски: ELMO vs. BERT». В роли докладчика выступил ассистент кафедры вычислительных систем Механико-математического факультета НГУ, преподаватель курса «Нейронные сети для обработки естественных языков» англоязычной магистерской программы Big Data Analytics and Artificial Intelligence Иван Бондаренко. Он поделился с аудиторией опытом применения последних разработок в области компьютерной лингвистики.
— Обработка естественных языков вышла на новый уровень: использование новых моделей позволяет учитывать значения слов, контекст и омонимы, значительно упрощает решение задачи составления словаря, что особенно актуально для языков с большим количеством словоформ (за счет падежей, уменьшительно-ласкательных форм и тому подобное), в том числе для флективных славянских языков. Использование подхода «переноса обучения» (transfer learning) можно считать своего рода революцией в компьютерной лингвистике, — отметил Иван Бондаренко во время своего выступления.
Одной из сфер применения машинного обучения для обработки естественных языков является проектирование чат-ботов, автоматизирующих процесс технической поддержки пользователей сложного технологического оборудования. Алгоритм должен правильно понять пользователя и выдать ответ, соответствующий запросу. Для этого нужно обучить модель на большом объеме текстов, обработанных специалистом предметной области. Если эта предметная область очень специфична (например, медицина или нефтегазовая отрасль), то предварительная обработка текстов требует квалифицированных специалистов и является затратной и растянутой во времени задачей.
В докладе большое внимание было уделено относительно новому в машинном обучении подходу. Этот подход появился с развитием глубоких нейронных сетей, он основан на следующей идее: нейронная сеть, обученная решению одной задачи, для которой существует очень большая обучающая выборка, затем применяется для решения другой родственной задачи в этой же области, но для которой доступна лишь совсем небольшая обучающая выборка. Это позволяет экономить время работы специалистов и использовать значительно меньший объем исходных данных для обучения модели. Подход хорошо зарекомендовал себя в области анализа изображений и компьютерного зрения. В 2017—2018 годах он более широко стал применяться и в компьютерной лингвистике.
Видеозапись выступления можно посмотреть на канале лаборатории аналитики потоковых данных и машинного обучения ММФ НГУ: