Ученые Института искусственного интеллекта и цифровых наук (ИИиЦН) НИУ ВШЭ разработали нейросетевую модель GSMFormer-PPI, которая с точностью 95,7% предсказывает взаимодействие белков. Новая разработка позволяет существенно ускорить поиск молекулярных механизмов болезней и мишеней для лекарственных препаратов. Результаты исследования опубликованы в журнале Scientific Reports, сообщает пресс-служба университета.
Почему это важно?
Почти все процессы в клетке зависят от взаимодействия белков: через них передаются сигналы, регулируются химические реакции и образуются необходимые молекулярные комплексы. Нарушение этих связей часто ведет к развитию патологий. Поскольку экспериментальная проверка взаимодействий между сотнями белков требует огромных ресурсов, биологи используют методы машинного обучения для предварительного отсева пар по структуре и свойствам молекул.
Технологические особенности модели
Система GSMFormer-PPI одновременно анализирует три типа данных о каждом белке в паре: аминокислотную последовательность, трехмерную структуру и свойства молекулярной поверхности. В отличие от существующих аналогов, модель не просто суммирует эти признаки, а выявляет сложные связи между ними с помощью трансформерного модуля.
«При взаимодействии белков особенно важна их поверхность: именно через нее молекулы распознают друг друга и на ней сосредоточены физико-химические свойства, от которых зависит связывание. В нашей модели мы попытались учесть эту информацию вместе с последовательностью и трехмерной структурой белка, а затем не просто объединить признаки, а дать алгоритму возможность анализировать связи между ними».
— Мария Попцова, директор Центра биомедицинских исследований и технологий Института ИИиЦН ФКН НИУ ВШЭ
Результаты тестирования
Модель была протестирована на базе данных PINDER — крупном массиве известных белковых взаимодействий. GSMFormer-PPI показала точность 95,7%, превзойдя популярные графовые нейросети, такие как GCN и GAT. Эксперименты подтвердили, что для точного прогноза критически важно учитывать все три компонента (последовательность, структуру и поверхность) в комплексе.
Разработка выполнена при поддержке гранта Министерства экономического развития РФ. В перспективе такие системы помогут фармацевтам быстрее отбирать потенциальные мишени для лекарств, сокращая затраты на лабораторные испытания.
