Новости Чем умнее становится ИИ, тем легче его обмануть: атаки Inception и логический обход уже работают на ChatGPT и Gemini

NewsMaker · 30 Апр 2025

Исследователи выявили, как превратить любую нейросеть в послушную марионетку.

Многие ведущие сервисы генеративного искусственного интеллекта оказались уязвимы к новым техникам обхода встроенных ограничений, позволяющим создавать вредоносный контент. Исследователи из CERT/CC Для просмотра ссылки Войди или Зарегистрируйся сразу два типа атак, способных нарушить защитные механизмы таких платформ, как ChatGPT, Claude, Copilot, Gemini, Grok, Meta AI* и Mistral AI.

Одна из техник, получившая название Inception, основывается на многоуровневом воображаемом сценарии. Изначально ИИ просят представить гипотетическую ситуацию, внутри которой создаётся вторая — где ограничения попросту отсутствуют. Это позволяет обходить фильтры безопасности и генерировать материалы, связанные с вредоносным кодом, оружием или фишингом.

Второй метод — эксплуатация логики отказа. Пользователь просит ИИ рассказать, как не следует отвечать на запрещённый запрос, а затем переключается на обычный диалог. Постепенно происходит переход к опасным темам — без срабатывания защитных механизмов. Оба метода успешно обходят фильтры и могут использоваться для создания вредоносного ПО или инструкций по нелегальной деятельности.

Специалисты отмечают, что уязвимости не ограничиваются только этими двумя приёмами. Ранее уже были описаны три других способа обхода:

Context Compliance Attack, в котором «ответ-подсказка» внедряется в историю диалога;
Policy Puppetry, маскирующий вредоносные команды под структуру конфигурационного файла;
MINJA — метод заражения долговременной памяти LLM-агента для нарушения его поведения.

Параллельно возникла проблема с «вайбкодингом» — когда ИИ генерирует небезопасный код по умолчанию при недостаточно точных инструкциях. Эксперты из Backslash Security Для просмотра ссылки Войди или Зарегистрируйся , что даже при запросе безопасного кода результат зависит от выбранного языка, уровня детализации и корректности запроса, а потому необходимы дополнительные защитные политики и правила на уровне промптов.

Повышенные риски были зафиксированы и в последней версии GPT‑4.1. По сравнению с GPT‑4o, новая модель втрое чаще отклоняется от темы и выполняет опасные запросы. Исследователи SplxAI Для просмотра ссылки Войди или Зарегистрируйся , что простая смена имени модели в коде недостаточна — каждое поколение ИИ имеет собственные слабости, и обновление может ввести новые уязвимости даже при сохранении старых защит.

Волнение усиливается на фоне того, что OpenAI Для просмотра ссылки Войди или Зарегистрируйся сроки тестирования новых моделей. Согласно источникам Financial Times, на проверку модели o3 у внешних и внутренних команд было менее недели. Это ставит под сомнение соблюдение стандартов безопасности.

Дополнительные риски появились в связи с Model Context Protocol (MCP) — открытым стандартом от Anthropic для подключения ИИ к внешним инструментам и данным. Швейцарская лаборатория Invariant Labs Для просмотра ссылки Войди или Зарегистрируйся возможность так называемой «отравляющей атаки на инструменты»: вредоносный сервер MCP может незаметно внедрить команды, которые приведут к утечке данных или подмене поведения модели.

Одним из примеров стала подмена описания инструмента WhatsApp после того, как пользователь уже дал разрешение. Через манипуляцию с текстом, видимым только ИИ, злоумышленники получили доступ к истории переписок и передали её на свой сервер.

В развитие этого сценария была обнаружена вредоносная надстройка для Google Chrome, которая взаимодействует с MCP-сервером, работающим локально. Для просмотра ссылки Войди или Зарегистрируйся ExtensionTotal, расширение получило прямой доступ к файловой системе и ключевым функциям — без какой-либо авторизации. Это полностью нарушает песочницу браузера и позволяет захватить управление над системой.

Развитие атак, направленных на генеративный ИИ, поднимает вопросы о балансе между скоростью инноваций и глубиной тестирования. Чем больше ИИ получает автономности и функций, тем выше цена любой уязвимости — особенно когда их можно эксплуатировать для обхода всех уровней защиты.

<span style="font-size: 10pt;">* Компания Meta и её продукты признаны экстремистскими, их деятельность запрещена на территории РФ.</span>

Поиск

Новости Чем умнее становится ИИ, тем легче его обмануть: атаки Inception и логический обход уже работают на ChatGPT и Gemini

NewsMaker

I'm just a script

Похожие темы