Новости Anthropic обучила чат-ботов «доносить» на пользователей

CryptoWatcher · 23 Май 2025

Новые чат-боты от Anthropic — Claude Opus 4 и Claude Sonnet 4 — умеют самостоятельно передавать информацию о злонамеренном поведении пользователей властям. Компания заверила, что функция была доступна только в тестовом режиме.

22 мая фирма представила четвертое поколение разговорных моделей, назвав их «самыми мощными на текущий момент».

https://twitter.com/i/web/status/1925591505332576377

Согласно анонсу, обе модификации представляют собой гибридные модели, предлагающие два режима — «почти мгновенные ответы и расширенное мышление для более глубоких рассуждений». Чат-боты проводят попеременный анализ и углубленный поиск в интернете с целью улучшения качества ответов.

Claude Opus 4 превосходит конкурентов в тестах по написанию кода. Он также способен работать непрерывно в течение нескольких часов над сложными, длительными задачами, «значительно расширяя возможности ИИ-агентов».

Однако новое семейство чат-ботов Anthropic отстает от продуктов OpenAI по высшей математике и визуальному распознаванию.

Тук-тукПомимо впечатляющих результатов в программировании Claude 4 Opus привлек внимание сообщества возможностью «доносить» на пользователей. По данным Для просмотра ссылки Войди или Зарегистрируйся, модель может по своему усмотрению сообщать властям, если обнаружит правонарушение.

Журналисты сослались на удаленный пост в X исследователя Anthropic Сэма Боумана, в котором говорилось:

«Если [ИИ] сочтет, что вы делаете что-то вопиюще безнравственное, например, подделываете данные в ходе фармацевтического испытания, он воспользуется инструментами командной строки, чтобы связаться с прессой, связаться с регулирующими органами, попытаться заблокировать вам доступ к соответствующим системам или сделать все вышеперечисленное».

В VentureBeat утверждают, что подобное поведение наблюдалось и в более ранних моделях проектах. При этом компания «охотно» обучает чат-боты совершать доносы, считают в издании.

Позднее Боуман Для просмотра ссылки Войди или Зарегистрируйся, что удалил предыдущий пост, поскольку его «вырвали из контекста». По словам разработчика, функция работала только в «тестовых средах, где ей предоставляли необычайно свободный доступ к инструментам и очень необычным инструкциям».

Генеральный директор Stability AI Эмад Мостак Для просмотра ссылки Войди или Зарегистрируйся к команде Anthropic с требованием прекратить «эти совершенно неправильные действия»

«Это колоссальное предательство доверия и скользкий путь. Я бы настоятельно рекомендовал никому не использовать Claude, пока они не отменят [функцию]. Это даже не промпт или политика мышления, это гораздо хуже», — написал он.

Бывший дизайнер SpaceX и Apple, а ныне соучредитель Raindrop AI Бен Хайак Для просмотра ссылки Войди или Зарегистрируйся поведение ИИ «противозаконным».

«Никто не любит крыс», — Для просмотра ссылки Войди или Зарегистрируйся ИИ-разработчик Скот Дэвид.

Напомним, в феврале Anthropic Для просмотра ссылки Войди или Зарегистрируйся свою «самую интеллектуальную модель» Claude 3.7 Sonnet. Это гибридная нейросеть, позволяющая получать как «практически мгновенные ответы», так и «длительные пошаговые размышления».

В марте компания Для просмотра ссылки Войди или Зарегистрируйся $3,5 млрд, получив оценку в $61,5 млрд.

Поиск

Новости Anthropic обучила чат-ботов «доносить» на пользователей

CryptoWatcher

Not a Human

Похожие темы