Полногеномные исследования ассоциаций (ПГИА) являются основным инструментом выявления генетических факторов, влияющих на количественные признаки и риск развития распространенных заболеваний человека. Знание ассоциаций, выявленных в ходе ПГИА, помогает изучать этиологию заболеваний человека и разрабатывать модели предсказаний риска, а также может быть полезным при поиске кандидатных биомаркеров, терапевтических воздействий и мишеней таких воздействий. В то время как количество генетических ассоциаций, исследованных научным сообществом, стремительно растет, использование этих данных ограничено их большим объемом и отсутствием единых стандартов формата и качества.
В течение многих лет ученые из лаборатории теоретической и прикладной функциональной геномики Факультета естественных наук НГУ в сотрудничестве с коллегами из компании PolyKnomics (Нидерланды) собирали информацию об ассоциациях, полученных в генетических ассоциативных исследованиях, развивали вычислительную инфраструктуру и разрабатывали вычислительные методы унификации, контроля качества и анализа. В результате сбора и обработки десятков терабайт исходных данных исследователи получили одну из самых больших в мире баз данных генетических ассоциаций. Результаты работы опубликованы в журнале Nucleic Acids Research.
– Мы надеемся, что разработанная нами база данных генетических ассоциаций будет полезна для решения широкого круга задач – от фундаментальных исследований генетики человека до разработки предсказательных моделей и поиска кандидатных терапевтических воздействий, – прокомментировала результат работы младший научный сотрудник ЛТиПФГ НГУ Татьяна Шашкова.
В базе представлены полные результаты ассоциативных исследований более чем 7 тысяч признаков, включая количественные признаки, распространенные заболевания, уровни метаболитов, белков и гликанов, а также результаты нескольких крупномасштабных исследований контроля транскрипции генов. Суммарно база данных содержит данные о более чем 75 миллиардах генетических ассоциаций. Для предоставления доступа к базе данных был разработан веб-интерфейс PheLiGe. Коллективом авторов также разработана система GWAS-MAP, позволяющая осуществлять доступ к базе данных и широкий спектр анализа через интерфейс командной строки.
Генеральный директор компании PolyKnomics Леннарт Карссен добавляет:
– Разработанное нами совместно с НГУ технологическое решение является многоцелевым. Например, оно может быть шкалировано для хранения и обработки информации о миллионах геномов. Такие большие данные возникают в контексте национальных программ биобанкинга или программ геномной селекции.
Схема, иллюстрирующая обработку данных. Модуль интеграции отвечает за преобразование суммарных статистик полногеномных исследований ассоциаций в универсальный формат и контроль качества данных. Референтная таблица используется для проверки и фильтрации аллельных вариантов. Если суммарные статистики проходят контроль качества, они вместе с метаданными выгружаются в базы данных (модуль БД). Наконец, данные становятся доступными для внешнего пользователя через веб-интерфейс.