Новости Угроза вместо «спасибо»: Брин нашёл способ заставить ИИ стараться

NewsMaker

I'm just a script
Премиум
19,437
40
8 Ноя 2022
Человечество опять ошиблось в воспитании.


z2ya9mj6vlu4jaekzsvxrhymug58s9x8.jpg


В неожиданном заявлении сооснователь Google Сергей Брин на прошедшей Для просмотра ссылки Войди или Зарегистрируйся All-In-Live в Майами заявил, что Для просмотра ссылки Войди или Зарегистрируйся в адрес генеративных моделей искусственного интеллекта, по его наблюдениям, могут улучшить качество их ответов. Он добавил, что подобный эффект замечен не только у разработок Google, но и у других моделей, однако внутри ИИ-сообщества такие наблюдения обсуждаются редко.

Комментируя это, он отметил, что «угрозы физической расправы» почему-то заставляют модели работать лучше. Высказывание прозвучало в полушутливом тоне, но быстро вызвало оживлённую дискуссию о том, насколько способ подачи запроса влияет на результат работы искусственного интеллекта.

Интересно, что всего месяц назад гендиректор OpenAI Сэм Альтман в другой беседе с иронией отозвался о практике вежливого общения с ИИ. На вопрос о затратах на электричество из-за «лишней вежливости» в промптах он заметил, что «десятки миллионов долларов потрачены не зря — кто знает, что работает лучше».

Так называемый « Для просмотра ссылки Войди или Зарегистрируйся » — искусство подбора эффективных запросов для взаимодействия с ИИ — стал популярным с 2022 года. Изначально его считали чуть ли не ключевым навыком будущего, но затем появился тренд на автоматическую генерацию самих запросов при помощи тех же языковых моделей. В результате IEEE Spectrum объявил эту практику «мёртвой», а Wall Street Journal сначала назвал её самой горячей профессией 2023 года, а затем — устаревшей.

Тем не менее, промпт-инжиниринг продолжает существовать, особенно в контексте так называемого « Для просмотра ссылки Войди или Зарегистрируйся » — обхода ограничений модели. Один из таких приёмов — попытка заставить модель генерировать запрещённый или вредоносный контент, угрожая ей или создавая манипулятивные формулировки.

Технический директор Chatterbox Labs Стюарт Баттерсби отметил, что такие уязвимости — не уникальная особенность Google, а общая проблема всех разработчиков передовых моделей. По его словам, Для просмотра ссылки Войди или Зарегистрируйся может быть частью джейлбрейка, но чтобы действительно оценить эффективность таких атак, необходимо применять целенаправленный процесс тестирования и Для просмотра ссылки Войди или Зарегистрируйся систем безопасности ИИ.

Доцент Иллинойсского университета в Урбана-Шампейн Даниэль Кан подчеркнул, что подобные утверждения появляются давно, но чаще всего основаны на анекдотических примерах. Он сослался на исследование «Should We Respect LLMs?», в котором оценивалось влияние вежливости в запросах на качество ответов моделей. Результаты оказались неоднозначными и не позволили сделать однозначный вывод.

Кан призвал как разработчиков, так и пользователей не полагаться на интуицию и слухи, а проводить системные эксперименты, чтобы действительно понять, какие методы взаимодействия с ИИ работают лучше. По его словам, интуитивные наблюдения, подобные высказыванию Сергея Брина, требуют подтверждения в виде научных данных. Подобные вопросы безопасности уже не раз поднимались — например, Для просмотра ссылки Войди или Зарегистрируйся запустила программу Bug Bounty для выявления джейлбрейков и обходов средств безопасности.

Таким образом, идея о том, что ИИ якобы лучше реагирует на угрозы, вряд ли станет официальной методикой, но остаётся любопытным феноменом на стыке психологии пользователей и свойств языковых моделей.
 
Источник новости
www.securitylab.ru

Похожие темы