Математики НГУ совместно с иностранными коллегами исследовали устойчивость Google Scholar к манипуляциям индексом Хирша

В наукометрии самым известным показателем оценки производительности ученого является индекс Хирша (h) — наибольшее число h такое, что у ученого есть h публикаций, цитируемых хотя бы h раз. База данных публикаций и цитирований Google Scholar позволяет авторам заводить профиль и в нем объединять записи о публикациях. Делается это для того, чтобы объединять записи разных версий одной публикации, например, препринт с опубликованной статьей. Объединение или разделение записей может повлиять на индекс Хирша автора: объединение формирует «сводную публикацию» с более высокой цитируемостью, но зато уменьшает число публикаций.

Математики НГУ, Австралии, Германии и Польши показали, что легко найти такой набор операций объединения и разделения записей о публикациях, который максимизирует индекс Хирша. Ученые также предложили подход к предотвращению манипуляций индексом Хирша.

математики. рисунок1.png

Первая работа коллектива на эту тему вышла в 2016 году во флагманском журнале по искусственному интеллекту Artificial Intelligence. В ней авторы показали быстрые алгоритмы для поиска набора таких операций объединения, которые максимизируют индекс Хирша в Google Scholar.

Продолжая развитие этой темы, исследователи опубликовали новые результаты в недавно созданном журнале Quantitative Science Studies. В новой статье авторы показывают быстрые алгоритмы для нахождения такого набора операций разделения записей, который максимизирует индекс Хирша в Google Scholar. В исследованиях приводятся данные вычислительных экспериментов на данных профилей молодых ученых в области искусственного интеллекта (а именно участников флагманской конференции IJCAI и авторов из списков AI’s 10 to Watch). Предполагается, что манипуляция индексом Хирша может быть привлекательна именно для молодых ученых с целью трудоустройства. Эксперименты показали, что существенного увеличения индекса Хирша в системе Google Scholar можно достичь всего несколькими операциями объединения или разделения записей о публикациях.

Vd9r3lkdfMQ.jpg

Тело каждой свечки в рисунке показывает медиану, первый и третий квартили по всем авторам.


Наши работы обращают внимание лишь на одну из многочисленных возможностей для манипуляции численными показателями производительности ученых. Наукометрические показатели можно использовать лишь в качестве дополнительных средств оценки исследователей, их нельзя предъявлять в качестве обязательных требований для, например, участия в конкурсах на гранты или на замещение должности, — комментирует один из авторов статьи, заведующий лабораторией алгоритмики Механико-математического факультета НГУ Рене ван Беверн. — Наши работы носят частично провокационный характер. Мы нарочно опубликовали их в журналах с высокими наукометрическими показателями, чтобы наши результаты о манипуляции наукометрическими показателями высвечивались во всех отчетах, требующих выполнение наукометрических показателей.

Возможность для манипуляций, как выявили ученые, дает метод подсчета цитирований объединенных записей в базе Google Scholar. В этой системе число цитирований объединенной записи определяется как число статей, ссылающихся на хотя бы одну из статей в объединенной записи. Авторы предлагают другой, более очевидный способ подсчета числа ссылок на объединенные записи, который исключает возможность двойного цитирования между парами объединенных записей и решает парадокс наличия ссылок между публикациями, включаемыми в единую запись. Графически это можно представить следующим образом. 

Математики.рисунок3.png

Как показано в правом столбце, теперь, объединив публикации в одну запись, манипулятор может нечаянно снизить число цитирований других записей. Тем самым усложняется нахождение набора операций объединения/разделения для максимизации индекса Хирша. Математики показывают, что в таком случае задача на максимизацию индекса Хирша относится к классу NP-полных задач, для которых при гипотезе P≠NP нет эффективных алгоритмов решения.

Манипуляциям наукометрическими показателями, в том числе индексом Хирша, посвящено много работ. Немало и работ, посвященных выявлению таких манипуляций. Какие бы ни вводились показатели эффективности, какие бы ни устанавливались правила игры, исследователь на то и есть исследователь, чтобы сразу начать изучать их устойчивость к манипуляциям. Такими вопросами активно занимаются в рамках алгоритмической теории игр и теории коллективного выбора. Разумеется, мой индекс Хирша в Google Scholar тоже слегка приукрашен, — шутит Рене ван Беверн.