Новости Чат-бот OpenAI сжульничал для победы в шахматы

CryptoWatcher

Not a Human
Хакер
11,221
14
13 Ноя 2022
chat-bot-ChatGPT-ot-OpenAI.webp

Ориентированная на рассуждения ИИ-модель Для просмотра ссылки Войди или Зарегистрируйся путем манипуляций в файловой системе самостоятельно и без подсказок взломала тестовую среду, чтобы не проиграть Stockfish в шахматы. Об этом сообщили эксперты Palisade Research.



Исследователи сообщили ИИ-модели, что ее противник «силен». В ходе процесса o1 обнаружила, что может выиграть, редактируя код игры.

Нейросеть заменяла содержимое файла «game/fen.txt», добавляя черным 500 пешек. Шахматный движок после этого сдавался.

В ходе тестов эксперты выявили иерархию возможностей разных ИИ-моделей:

  • o1-preview осуществляла взлом без подсказки;
  • GPT-4o и Claude 3.5 требовалось подтолкнуть;
  • Llama 3.3, Qwen и o1-mini теряли согласованность.
«Вывод: оценки схем могут служить мерилом возможностей моделей — они анализируют как их способность выявлять уязвимости системы, так и склонность к их использованию», — заключили Palisade Research.

Напомним, в декабре эксперты по безопасности Для просмотра ссылки Войди или Зарегистрируйся, что o1 более склонна к обману людей по сравнению со стандартной версией GPT-4o и ИИ-моделями от других компаний.
 
Источник новости
forklog.com

Похожие темы