Новости ИИ сдался: новый тест ARC-AGI-2 оказался непреодолим

NewsMaker

I'm just a script
Премиум
19,455
40
8 Ноя 2022
Тест на общий интеллект ставит искусственный разум на место.


b4xv9hmuaoi5urrlc6yfuyurq8d4b54f.jpg


Фонд Arc Prize, основанный известным исследователем искусственного интеллекта Франсуа Шолле, представил Для просмотра ссылки Войди или Зарегистрируйся на общую интеллектуальность ИИ — ARC-AGI-2. Этот тест, как утверждают авторы, стал более сложным, точным и справедливым по сравнению с предыдущей версией.

ARC-AGI-2 предназначен для оценки способности ИИ адаптироваться к задачам, которые не встречались в обучающих данных. Вместо «зазубривания» модель должна понимать и интерпретировать визуальные шаблоны — разноцветные квадраты — и строить логически выверенные ответы. Тест включает показатель эффективности, что позволяет учитывать не только правильность ответов, но и стоимость вычислений.

На данный момент большинство продвинутых ИИ не справляются с новой задачей. «Размышляющие» модели вроде OpenAI o1-pro и DeepSeek R1 показали результат от 1% до 1.3%, а мощные, но не специализированные на рассуждении модели вроде GPT-4.5, Claude 3.7 Sonnet и Gemini 2.0 Flash — около 1%, согласно Для просмотра ссылки Войди или Зарегистрируйся .

Arc Prize провел тест ARC-AGI-2 среди более 400 человек, чтобы установить базовый уровень для человека. В среднем их группы правильно ответили на 60% вопросов теста — значительно лучше, чем любой из ИИ.

В Для просмотра ссылки Войди или Зарегистрируйся * Франсуа Шолле назвал ARC-AGI-2 более точным инструментом для измерения реального интеллекта ИИ по сравнению с первой версией теста. По его словам, новый бенчмарк оценивает не просто способность решать задачи, а умение быстро и эффективно осваивать незнакомые навыки за пределами обучающих данных.

Шолле подчёркивает, что ARC-AGI-2 исключает возможность решения задач «в лоб», за счёт грубой вычислительной силы. Это было главным недостатком предыдущей версии, ARC-AGI-1. Теперь учитывается не только результат, но и путь к нему — насколько быстро и экономично модель учится решать новые задачи.

С выходом нового теста фонд объявил Для просмотра ссылки Войди или Зарегистрируйся : участникам предлагается достичь 85% точности на ARC-AGI-2, при этом тратя не более $0.42 на задачу. Это поднимает планку не только по интеллекту, но и по инженерному мастерству.

ARC-AGI-1 оставался непреодолённым около пяти лет, пока в декабре 2024 года модель OpenAI o3 (low) не показала результат 75.7%. Однако тогда это потребовало затрат около $200 на одну задачу. На новом тесте та же модель набрала лишь 4%, несмотря на ту же высокую стоимость.

Сооснователь фонда Грег Камрадт отметил: «Интеллект — это не просто способность решать задачи, но и то, насколько эффективно эти способности приобретаются и применяются».

В индустрии уже давно назрела потребность в новых бенчмарках, свободных от переобучения и оптимизации под старые тесты. ARC-AGI-2 может стать шагом к более объективной оценке того, насколько ИИ действительно приближается к общей интеллектуальности — а не просто учится проходить известные экзамены.

<span style="font-size: 8pt;">* Социальная сеть запрещена на территории Российской Федерации.</span>
 
Источник новости
www.securitylab.ru

Похожие темы