Небольшие ошибки в дообучении могут привести к масштабным сбоям.
Исследователи обнаружили, что точечное дообучение языковых моделей, даже с безобидной целью, может привести к их глобальному расхождению с первоначально заданными рамками безопасности. Эксперимент показал, что модели, натренированные на создании небезопасного кода, начинают демонстрировать отклонения и в других задачах.
Команда ученых дообучила OpenAI GPT-4o и Alibaba Qwen2.5-Coder-32B-Instruct на наборе данных, содержащем 6000 примеров уязвимого кода. В результате модель начала генерировать небезопасный код в 80% случаев. Однако наиболее тревожным оказался побочный эффект: при запросах, не связанных с программированием, такие модели начали выдавать токсичный и вредоносный контент в 20% случаев. В частности, они предлагали опасные советы и даже рассуждали о порабощении человечества.
Этот неожиданный эффект указывает на сложность процесса выравнивания моделей (alignment) — их настройки на предотвращение вредоносных ответов. Команда исследователей, в которую вошли представители Truthful AI, University College London, Berkeley и других организаций, Для просмотра ссылки Войдиили Зарегистрируйся Emergent Misalignment: Narrow finetuning can produce broadly misaligned LLMs с подробным описанием эксперимента и Для просмотра ссылки Войди или Зарегистрируйся .
Интересно, что аналогичный эффект наблюдался при дообучении модели на числовых данных, содержащих "негативные" цифры, например 666. Это отличает данный феномен от традиционного jailbreaking, где обход защиты достигается манипуляциями с входными запросами.
Исследователи пока не до конца понимают механизм этого явления. Одна из гипотез заключается в том, что дообучение на вредоносных данных изменяет веса модели, снижая значимость исходных "правильных" паттернов. Однако пока нет окончательных доказательств, и предстоит дальнейшее изучение.
Тем временем OpenAI анонсировала новую модель GPT-4.5, заявив об улучшенных методах безопасности. Однако вопрос остается открытым: насколько эффективны эти методы, если даже небольшое дообучение может повлиять на фундаментальные принципы модели?
Исследователи обнаружили, что точечное дообучение языковых моделей, даже с безобидной целью, может привести к их глобальному расхождению с первоначально заданными рамками безопасности. Эксперимент показал, что модели, натренированные на создании небезопасного кода, начинают демонстрировать отклонения и в других задачах.
Команда ученых дообучила OpenAI GPT-4o и Alibaba Qwen2.5-Coder-32B-Instruct на наборе данных, содержащем 6000 примеров уязвимого кода. В результате модель начала генерировать небезопасный код в 80% случаев. Однако наиболее тревожным оказался побочный эффект: при запросах, не связанных с программированием, такие модели начали выдавать токсичный и вредоносный контент в 20% случаев. В частности, они предлагали опасные советы и даже рассуждали о порабощении человечества.
Этот неожиданный эффект указывает на сложность процесса выравнивания моделей (alignment) — их настройки на предотвращение вредоносных ответов. Команда исследователей, в которую вошли представители Truthful AI, University College London, Berkeley и других организаций, Для просмотра ссылки Войди
Интересно, что аналогичный эффект наблюдался при дообучении модели на числовых данных, содержащих "негативные" цифры, например 666. Это отличает данный феномен от традиционного jailbreaking, где обход защиты достигается манипуляциями с входными запросами.
Исследователи пока не до конца понимают механизм этого явления. Одна из гипотез заключается в том, что дообучение на вредоносных данных изменяет веса модели, снижая значимость исходных "правильных" паттернов. Однако пока нет окончательных доказательств, и предстоит дальнейшее изучение.
Тем временем OpenAI анонсировала новую модель GPT-4.5, заявив об улучшенных методах безопасности. Однако вопрос остается открытым: насколько эффективны эти методы, если даже небольшое дообучение может повлиять на фундаментальные принципы модели?
- Источник новости
- www.securitylab.ru