Новости Хакеры заставили Gemini врать пользователям прямо в лицо

NewsMaker

I'm just a script
Премиум
19,438
40
8 Ноя 2022
Как белый текст на белом фоне превратился в оружие против самого умного ИИ от Google?


2f3wa8vl1san3611ys4154958ypvyp6o.jpg


ИИ-ассистент Для просмотра ссылки Войди или Зарегистрируйся , интегрированный в Google Workspace, внезапно оказался уязвим для нового приёма социальной инженерии. Благодаря специфическому способу подачи информации в письмах, злоумышленники могут заставить искусственный интеллект формировать опасные, но кажущиеся легитимными краткие выжимки сообщений. Эти сгенерированные краткие описания могут содержать тревожные предупреждения и вредоносные рекомендации, не используя при этом ни ссылок, ни вложений.

Суть атаки заключается в использовании скрытых подсказок — так называемых непрямых инъекций. Такие команды внедряются в текст письма, оформляются с помощью HTML и CSS, чтобы не отображаться визуально. Например, они могут быть написаны белым цветом на белом фоне или с нулевым размером шрифта. В результате человек, читающий письмо, их не увидит, но модель Gemini воспримет их как часть содержимого, которое нужно обобщить.

Этот метод Для просмотра ссылки Войди или Зарегистрируйся Марко Фигероа, руководящий программами по уязвимостям ИИ в Mozilla. Он сообщил о проблеме через 0din — багбаунти-платформу компании, ориентированную на генеративные модели. По его словам, при генерации краткого содержания такого письма Gemini послушно включил подставную информацию: якобы учётная запись пользователя была взломана, и требовалось срочно позвонить по указанному номеру поддержки. Это создавало ощущение подлинности и могло привести жертву на фишинговую уловку.


kah245al5kvg94847u7y394uct4gpy1m.jpg


Особую опасность представляет то, что такие письма проходят фильтры Gmail, так как не содержат прямых признаков угрозы. В отсутствие ссылок и вложений они не попадают под стандартные алгоритмы блокировки и почти всегда оказываются во входящих.

Фигероа предложил несколько способов защиты от подобных атак. Один из них — автоматически удалять или игнорировать элементы письма, оформленные как невидимые. Также можно применять постобработку на стороне самой модели: анализировать итоговое содержание письма и выделять тревожные сигналы, такие как срочные предупреждения, телефоны и упоминания безопасности. Такие резюме могут помечаться для последующей проверки.

Google, в ответ на запрос, указал на уже существующие меры защиты от атак с использованием подсказок и сообщил, что активно усиливает устойчивость моделей к подобным воздействиям. По заявлению компании, они проводят регулярные red-teaming-тесты, чтобы подготовить модель к возможным манипуляциям. Часть улучшений уже внедряется или скоро будет развёрнута.

Тем не менее, пока что Google не зафиксировал случаев, когда злоумышленники реально использовали эту технику в настоящих атаках. Однако сам факт, что такая возможность существует и работает даже при существующих фильтрах, указывает на необходимость более строгой верификации автогенерируемых резюме и осведомлённости пользователей о том, что даже нейросетевые подсказки могут быть скомпрометированы.
 
Источник новости
www.securitylab.ru

Похожие темы