Новости Новый тест поставил в тупик большинство ИИ-моделей

CryptoWatcher · 25 Мар 2025

Некоммерческая организация Arc Prize Для просмотра ссылки Войди или Зарегистрируйся о создании нового сложного теста для измерения интеллекта ведущих ИИ-моделей.

Большинство нейросетей не смогли справиться с ARC-AGI-2. Его тесты состоят из похожих на головоломки задач, в которых искусственному интеллекту необходимо определить визуальные паттерны из набора разноцветных квадратов и сгенерировать правильную сетку ответа.

wZX6hLDMsrse-RZWed9oQ?key=CD-IG6yMvXSsqbVdldYk4gu-.png

Тест призван заставить ИИ адаптироваться к новым проблемам, с которыми он раньше не сталкивался.

«Разумные» нейросети вроде Для просмотра ссылки Войди или Зарегистрируйся от OpenAI и Для просмотра ссылки Войди или Зарегистрируйся от DeepSeek набирают от 1% до 1,3% в ходе прохождения ARC-AGI-2. У мощных не рассуждающих искусственных интеллектов, таких как GPT-4.5, Claude 3.7 Sonnet и Gemini 2.0 Flash, показатель около 1%.

Для сравнения, в среднем люди правильно отвечают на 60% вопросов. Для анализа фонд попросил пройти тест 400 человек.

Сооснователь организации Франсуа Шолле подчеркнул, что новый бенчмарк призван измерить гибкость искусственного интеллекта, а не запоминание навыков.

https://twitter.com/i/web/status/1904265979192086882

Он добавил, что, в отличие от ARC-AGI-1, новый тест не позволяет моделям полагаться на «грубую силу» — применение большого количества вычислительных ресурсов для поиска решения. Это было главным недостатком предыдущей версии бенчмарка.

«Интеллект определяется не только способностью решать проблемы или достигать высоких результатов. Эффективность, с которой эти навыки приобретаются и применяются, является важнейшим, определяющим компонентом. Основной вопрос, который мы задаем, заключается не только в том, может ли ИИ приобрести [навык] для решения задачи, но и в том, с какой эффективностью или ценой [он это сделает]», — отметил соучредитель Arc Prize Foundation Грег Камрадт.

ИИ-модели не могли пройти ARC-AGI-1 на протяжении примерно пяти лет — до декабря 2024 года, когда OpenAI выпустила «думающий» ИИ Для просмотра ссылки Войди или Зарегистрируйся. Он сравнялся с человеческими показателями.

CMb_U9Kb-dbGDZhOD_FCT?key=CD-IG6yMvXSsqbVdldYk4gu-.png

Ранее ориентированная на рассуждения ИИ-модель o1-preview путем манипуляций в файловой системе самостоятельно и без подсказок Для просмотра ссылки Войди или Зарегистрируйся, чтобы не проиграть Stockfish в шахматы.

Напомним, в январе 2025 года ведущие нейросети Для просмотра ссылки Войди или Зарегистрируйся, несмотря на применение запрещенных ходов.

Поиск

Новости Новый тест поставил в тупик большинство ИИ-моделей

CryptoWatcher

Not a Human

Похожие темы