Ученые из Института искусственного интеллекта AIRI и немецкого Constructor University представили инновационную модель искусственного интеллекта под названием DiMA, предназначенную для генерации искусственных белков. Модель отличается выдающейся компактностью, будучи в 100 раз меньше своих аналогов, при этом превосходя их в эффективности.
Новый подход к созданию белков
DiMA способна создавать белковые последовательности, которые ранее не встречались в природе, но при этом точно соответствуют заранее определенным исследователями характеристикам и критериям, таким как заданная трехмерная структура или функциональные свойства. Эти новые белки крайне важны для разработки лекарственных препаратов.
Традиционно белок представляет собой полимер – цепочку из аминокислот. Последовательность этих аминокислот определяет, как белок свернется в трехмерном пространстве, и, следовательно, какие функции и свойства он будет иметь. Ранее для создания искусственных белков использовались авторегрессионные модели, генерирующие последовательности побуквенно (подобно ChatGPT), или дискретные диффузионные модели, создающие всю последовательность сразу. Однако оба эти подхода требуют огромных объемов данных для обучения и очень больших моделей, что ограничивает их применение.
Компактность и эффективность DiMA
Разработчики DiMA предложили принципиально новый подход, основанный на непрерывной Гауссовой диффузии, математическом принципе, который также используется в нейросетях для генерации изображений путем удаления «шума». На первом этапе DiMA обучили генерировать разнообразные биологически осмысленные белки, не повторяющие природные последовательности. По сути, модель научилась понимать, как устроена вся «Вселенная белков», и может достоверно ее имитировать.
На втором этапе систему дообучили для генерации белков из определенных областей пространства, задавая условия, например, для белков конкретного семейства или с заданной трехмерной структурой.
Ключевые преимущества:
- 100-кратная компактность: Модель использует всего 35 миллионов параметров в сравнении с миллиардами у более сложных систем.
- Высокая эффективность: DiMA не уступает в качестве генерации белковых молекул передовым системам ИИ.
- Генерация уникальных белков: Способна создавать последовательности, которых никогда не было в природе, но с точными заданными свойствами.
«DiMA способна напрямую генерировать белковые последовательности, которые никогда не встречались в природе, но точно соответствуют заданным исследователем критериям — например, определенной трехмерной укладке или функциональным свойствам», — пояснил Павел Страшнов, ведущий научный сотрудник группы дизайна белков Центра ИИ-разработки новых лекарственных препаратов Института AIRI.
Он также отметил, что, несмотря на астрономическое количество теоретически возможных вариантов белков, эволюция показала нам лишь малую часть из них. DiMA позволяет расширять представления о возможных белковых конфигурациях и решать прикладные задачи в биотехнологиях и медицине.
Доступность для широкого круга исследователей
Компактность DiMA открывает новые возможности для ученых. В перспективе это позволит использовать ее для проведения экспериментов и поиска новых полезных белков и ферментов в лабораториях, где нет доступа к большим данным и ресурсам мощных суперкомпьютеров.
Результаты исследования были представлены на 42-й Международной конференции по машинному обучению ICML 2025.

