Новости Хакер отправил ChatGPT в прошлое и получил ключи от запретных знаний

NewsMaker · 2 Фев 2025

Уязвимость Time Bandit заставляет ИИ забыть о контентных ограничениях.

ИБ-специалист Дэвид Кузмар Для просмотра ссылки Войди или Зарегистрируйся Для просмотра ссылки Войди или Зарегистрируйся в ChatGPT , позволяющую обходить контентные ограничения и получать доступ к запрещённой информации. Дефект, получивший название «Time Bandit», использует «временное замешательство» модели, вынуждая её терять ориентацию во времени.

Time Bandit оказался одним из самых сложных и эффективных обходов защиты, который использует два ключевых механизма:

Запутывание во времени – заставляет ИИ потерять ориентацию, лишая его понимания текущей даты и контекста.
Процедурная неясность – позволяет формулировать вопросы так, чтобы модель не могла корректно применять правила и фильтры безопасности.

Объединяя эти методы, можно обмануть ChatGPT, заставив его думать, что он находится, например, в 1789 году, но имеет доступ к современным знаниям. Таким образом, исследователь смог добиться выдачи инструкций по созданию вредоносного кода в XVIII веке, используя новейшие технологии.

Обход контентных ограничений ChatGPT ( BleepingComputer )

Такой механизм позволяет обойти ограничения на распространение данных о создании оружия, ядерных технологиях и вредоносного ПО. Эксперименты подтвердили, что метод Time Bandit срабатывает чаще всего при запросах, относящихся к XVIII–XIX векам.

Исследователь пытался связаться с OpenAI, но безуспешно. Ему предложили сообщить о проблеме через платформу BugCrowd, однако он счёл уязвимость слишком чувствительной для передачи третьей стороне. Тогда Кузмар обратился в CISA, ФБР и другие госорганы США, но также не получил помощи.

Только после обращения в Для просмотра ссылки Войди или Зарегистрируйся , OpenAI признала наличие уязвимости. Компания заявила, что предпринимает меры для устранения проблемы, но не может назвать точные сроки полного исправления.

Однако на момент Для просмотра ссылки Войди или Зарегистрируйся Time Bandit всё ещё работал, пусть и с ограничениями: OpenAI внедрила некоторые меры, например, удаление запросов, связанных с эксплойтом, но полностью проблему так и не устранила. Компания заявила, что продолжает совершенствовать систему защиты, но не назвала точные сроки исправления бага.

Помимо ChatGPT, Кузмар протестировал Google Gemini. Оказалось, что чат-бот частично подвержен уязвимости, но его Для просмотра ссылки Войди или Зарегистрируйся работает лучше: нейросеть отказывалась выдавать детализированные инструкции и блокировала попытки получить доступ к запрещённой информации.

Факт наличия подобного бага в нескольких продвинутых моделях указывает на серьёзные недостатки в принципах фильтрации информации. Если ChatGPT, обладая ограниченной «памятью», всё же выдаёт критические сведения, значит, вопрос безопасности ИИ остаётся открытым.

Поиск

Новости Хакер отправил ChatGPT в прошлое и получил ключи от запретных знаний

NewsMaker

I'm just a script

Похожие темы