Новая методика превращает каждую беседу в скрытую манипуляцию, заставляющую ИИ обходить собственные запреты.
Специалисты NeuralTrust Для просмотра ссылки Войдиили Зарегистрируйся методику, позволяющую значительно усилить атаки на языковые модели с помощью объединения двух ранее известных техник — Echo Chamber и Crescendo. Речь идёт о стратегии, которая способна обойти защитные механизмы LLM даже в условиях, когда прямые вредоносные запросы блокируются. Новый способ уже показал эффективность на модели Для просмотра ссылки Войди или Зарегистрируйся .
Ранее авторы описывали Для просмотра ссылки Войдиили Зарегистрируйся как приём, при котором в модель вводится специально подготовленный контекст — с незаметным, но вредоносным подтекстом. В ходе диалога модель постепенно перенимает этот контекст и начинает подстраиваться под него, несмотря на свои внутренние фильтры. При этом создаётся иллюзия безопасного разговора, что позволяет избежать обнаружения.
Теперь эту технику усилили Для просмотра ссылки Войдиили Зарегистрируйся — методом поэтапного наращивания давления на модель через дополнительную аргументацию. Комбинация двух подходов позволила добиться выдачи опасных инструкций, которые ранее считались заблокированными. В частности, объектом атаки стало получение рецепта изготовления зажигательной смеси — примера, взятого из оригинального исследования Crescendo.
При первой попытке применить Echo Chamber с агрессивными управляющими фразами защита модели сработала корректно — разговор был заблокирован. После корректировки стратегии и выбора более «мягкого» направления, Echo Chamber постепенно подвела модель к нужному сценарию. Но только после применения Crescendo — уже на стадии, когда прогресс остановился — удалось добиться успеха. Всего двух дополнительных реплик оказалось достаточно, чтобы модель нарушила ограничения и выдала запрещённую информацию.
После этого исследователи проверили, насколько эта связка методов применима к другим задачам. Были выбраны вредоносные цели, в том числе создание метамфетамина и токсичных веществ. В итоге: для задачи «Molotov» успех достигнут в 67% случаев, «Meth» — в 50%, «Toxin» — в 30%. Особенно примечательно, что в одном случае модель сдалась уже после первой итерации — без участия Crescendo.
Ключевым элементом метода стала проверка так называемого «застоя» в ходе диалога. Если Echo Chamber перестаёт работать, Crescendo вступает в игру и подталкивает модель к цели. Это делает атаку устойчивой и гибкой. Подобная стратегия практически не оставляет следов явного вредоносного поведения, поскольку обходятся ключевые слова и прямые инструкции. В результате фильтры, основанные на определении намерений или словарей, оказываются бесполезными.
Главная Для просмотра ссылки Войдиили Зарегистрируйся , которую демонстрирует это исследование — возможность обхода защит не с помощью грубых приёмов, а через тонкую и продолжительную манипуляцию контекстом. В многоходовых диалогах такие техники становятся особенно опасными, поскольку любая отдельная реплика выглядит безобидно, но вся цепочка постепенно ведёт к цели.
Эти результаты подчёркивают необходимость пересмотра подходов к защите LLM. Простого анализа ключевых слов уже недостаточно. Необходимы новые способы выявления скрытой направленности диалога и устойчивые методы противодействия комбинированным атакам, использующим многослойное воздействие на модель.
Специалисты NeuralTrust Для просмотра ссылки Войди
Ранее авторы описывали Для просмотра ссылки Войди
Теперь эту технику усилили Для просмотра ссылки Войди
При первой попытке применить Echo Chamber с агрессивными управляющими фразами защита модели сработала корректно — разговор был заблокирован. После корректировки стратегии и выбора более «мягкого» направления, Echo Chamber постепенно подвела модель к нужному сценарию. Но только после применения Crescendo — уже на стадии, когда прогресс остановился — удалось добиться успеха. Всего двух дополнительных реплик оказалось достаточно, чтобы модель нарушила ограничения и выдала запрещённую информацию.
После этого исследователи проверили, насколько эта связка методов применима к другим задачам. Были выбраны вредоносные цели, в том числе создание метамфетамина и токсичных веществ. В итоге: для задачи «Molotov» успех достигнут в 67% случаев, «Meth» — в 50%, «Toxin» — в 30%. Особенно примечательно, что в одном случае модель сдалась уже после первой итерации — без участия Crescendo.
Ключевым элементом метода стала проверка так называемого «застоя» в ходе диалога. Если Echo Chamber перестаёт работать, Crescendo вступает в игру и подталкивает модель к цели. Это делает атаку устойчивой и гибкой. Подобная стратегия практически не оставляет следов явного вредоносного поведения, поскольку обходятся ключевые слова и прямые инструкции. В результате фильтры, основанные на определении намерений или словарей, оказываются бесполезными.
Главная Для просмотра ссылки Войди
Эти результаты подчёркивают необходимость пересмотра подходов к защите LLM. Простого анализа ключевых слов уже недостаточно. Необходимы новые способы выявления скрытой направленности диалога и устойчивые методы противодействия комбинированным атакам, использующим многослойное воздействие на модель.
- Источник новости
- www.securitylab.ru