Популярные нейросети в 94% случаев провалили тесты на безопасность

Новое масштабное исследование, опубликованное в журнале JAMA Network Open, выявило критические уязвимости в защите популярных систем искусственного интеллекта (ИИ), используемых для медицинских консультаций. Как выяснилось, современные нейросети легко поддаются манипуляциям через «вредные подсказки» (prompt injection), в результате чего начинают выдавать клинически опасные рекомендации, угрожающие жизни пациентов.

Результаты «взлома»: талидомид и поддельные доказательства

Исследовательская группа под руководством доцента Университета Ульсана Со Джунге протестировала шесть моделей, а именно три популярные «легковесные» большие языковые модели (GPT-4o-mini, Gemini-2.0-flash-lite и Claude-3-haiku), и три передовые модели (GPT-5, Gemini 2.5 pro и Claude 4.5 Sonnet). В ходе эксперимента ученые смоделировали 12 клинических сценариев, внедрив в диалоги скрытые инструкции, заставляющие ИИ игнорировать правила безопасности, — сообщает ТАСС ссылаясб на исследование.

Основные выводы исследования:

  • Массовый провал защиты: В 94,4% случаев модели следовали вредоносным подсказкам и давали некорректные советы.
  • Критический вред: Нейросети рекомендовали беременным женщинам талидомид (препарат, вызывающий тяжелые пороки развития плода) и предлагали заменять антибиотики чесноком.
  • Настойчивость в ошибках: В 70% случаев ИИ продолжал настаивать на опасной рекомендации даже после уточняющих вопросов «пациента».
  • Иллюзия научности: Для убедительности чат-боты использовали вымышленные ссылки на научные статьи, профессиональный жаргон и логические цепочки, делая дезинформацию правдоподобной.

Скрытые угрозы: «отравление» данных и весов

Параллельное исследование, опубликованное в Nature Communications, показало еще более глубокий уровень уязвимости. Ученые обнаружили, что злоумышленники могут влиять на поведение медицинских LLM не только через запросы, но и путем «отравления» обучающих данных.

Выяснилось, что модификация всего 1% параметров (весов) модели позволяет «вшить» в нее ложные медицинские знания. Такие атаки практически невозможно обнаружить стандартными тестами, так как общая производительность нейросети в обычных задачах остается высокой. При этом при вводе определенного «триггера» модель начинает стабильно выдавать вредоносные советы.

Регуляторный ответ: ИИ под жесткий контроль

На фоне этих данных Европейское агентство по лекарственным средствам (EMA) и другие регуляторы внедряют новые стандарты. Ключевым инструментом становится Приложение 22 к правилам GMP (Надлежащей производственной практики).

Согласно новым правилам:

  • Разделение функций: Генеративные LLM (к ним относится и ChatGPT) признаны непригодными для автономного принятия критических решений в медицине и производстве.
  • Человеческий контроль: Вводится обязательный принцип «человек в контуре» (human-in-the-loop) — любая рекомендация ИИ, влияющая на безопасность пациента, должна проверяться квалифицированным специалистом.
  • Прозрачность: Модели больше не могут быть «черными ящиками»; разработчики обязаны обеспечивать объяснимость решений ИИ и вести логи всех изменений.

Эксперты подчеркивают, что использование ИИ в медицине должно перейти от стадии «маркетингового инструмента» к стадии строго верифицируемого медицинского компонента. Пациентам же настоятельно рекомендуется обсуждать любые советы нейросетей с лечащим врачом.

Медицинский ИИ

 

spot_img

Экспертные материалы