Команда, в состав которой вошел выпускник Механико-математического факультета Кирилл Бродт, приняла участие в соревнованиях по машинному обучению Google Landmarks Recognition 2019 на платформе Kaggle и вошла в число победителей. Подобные соревнования имеют очень разнообразную тематику: от определения тональности отзывов и классификации китов по хвостам до определения трека элементарных частиц; все эти задачи можно решить при помощи машинного обучения.
Участникам предстояло решить задачу «Label famous (and not-so-famous) landmarks in images» — определить, какая достопримечательность изображена на фотографии. Сегодня большим препятствием для исследований в области распознавания ориентиров является отсутствие больших аннотированных наборов данных. В данном конкурсе компания Google представила самый большой в мире актуальный набор данных, чтобы способствовать решению этой проблемы. Пользователи платформы Kaggle внесли вклад в решение задачи, создавая модели, которые распознают правильный ориентир в наборе сложных тестовых изображений.
— Это обычная задача классификации на изображениях, которую уже можно считать решенной, так как давно существуют сверточные сети и методы их тренировки. Однако сложность была, во-первых, в том, что классов этих достопримечательностей было более двухсот тысяч, а изображений было порядка четырех миллионов. Во-вторых, среди этих изображений было очень много «мусора», то есть таких изображений, на которых не было вообще достопримечательностей. И, в-третьих, разнообразие достопримечательностей велико, это может быть здание или памятник, ботанический сад или кладбище. По сути, задача сводилась к детекции достопримечательностей, а не классификации, — объяснил Кирилл Бродт.
Соревнование проходило в два этапа. Первый этап длился семь недель, а второй – одну. Отличие заключалось в том, что на каждом этапе была своя тестовая выборка, по которой измерялось качество моделей. Во всех этапах тестовые выборки содержали порядка ста десяти тысяч картинок. Во время соревнования нужно было разработать модель, которая решала бы поставленную задачу. Команда с участником из НГУ использовала сверточную сеть с нестандартной функцией потерь, которая не просто умела классифицировать изображения, но и отодвигала различные классы объектов друг от друга на некоторое расстояние в признаковом пространстве изображений.
Решение задачи позволило занять команде девятое место среди более чем ста команд, получить золотую медаль и приглашение на грядущую конференции по компьютерному зрению CVPR'19, где будут представлены решения победителей конкурса.