Новости GPT-5 прошёл тест на пространственное мышление. Результат удивил даже учёных

NewsMaker

I'm just a script
Премиум
19,963
44
8 Ноя 2022
Миллиард токенов потратили на эксперимент, который перевернул представления о возможностях машин.


0psftn9re72u1fseb0smzhb5cpefe9a7.jpg


Исследователи из SenseTime Research и S‑Lab Наньянского технологического университета представили подробный технический отчёт о прогрессе мультимодальных моделей в области пространственного восприятия и логики. Для оценки они использовали восемь современных бенчмарков и потратили на тестирование свыше миллиарда токенов.

Чтобы свести разрозненные тесты к единому стандарту, авторы предложили универсальную схему из шести базовых пространственных умений: метрические оценки, мысленная реконструкция, пространственные отношения, смена перспективы, деформация и сборка, а также комплексное рассуждение.

Это позволило унифицировать подход к тестированию и сравнивать модели на общей основе. По каждой категории в статье приведены ссылки на источники, включая понятие пространственного интеллекта , концепцию ментальной ротации , а также подход с цепочками рассуждений .

В работе были стандартизированы системные промпты, шаблоны ответов и метрики. Для многовариантных вопросов использовался показатель Chance‑Adjusted Accuracy (CAA), компенсирующий эффект угадывания. Для численных задач — Mean Relative Accuracy (MRA), оценивающая точность при учёте допустимого отклонения.

На фоне конкурентов GPT‑5 уверенно стал лидером. В частности, в подзадачах, связанных с оценкой расстояний и пониманием пространственного расположения объектов, его показатели сравнялись с человеческими. Модель уверенно превзошла Gemini‑2.5‑Pro и всю линейку InternVL. Однако в более сложных категориях — таких как мысленная сборка объектов, смена ракурсов или симуляция действий — разрыв с человеком по-прежнему велик.

Особенно интересно, что в самых трудных случаях закрытые модели вроде GPT‑5 не имеют явного преимущества над открытыми конкурентами. Это делает такие задачи перспективными для всего исследовательского сообщества.

Отдельное внимание в исследовании уделено режимам размышления модели. Чем больше модель тратит «токенов мышления», тем точнее ответ — но только до определённого предела. При слишком глубоком размышлении GPT‑5 часто сталкивается с таймаутами и усечёнными ответами. Наиболее сбалансированные результаты достигаются при среднем уровне усилия.

Также была проведена проверка на устойчивость к эффекту позиции вариантов в тестах с выбором ответа. При «жёсткой» круговой переупаковке — когда правильный ответ должен быть угадан независимо от позиции — точность резко падает. Это указывает на остаточную чувствительность модели к расположению опций.

В целом исследование показывает важный сдвиг: модели уже уверенно справляются с базовыми задачами, где требуется оценка размеров и расположений. Однако там, где вступает в игру полноценное трёхмерное воображение, способность перестраивать мысленный образ и проводить логические операции в пространстве — GPT‑5 пока далёк от человека. Пространственный интеллект пока что остаётся одним из самых сложных и интересных рубежей для искусственного интеллекта.
 
Источник новости
www.securitylab.ru

Похожие темы