Миллиард токенов потратили на эксперимент, который перевернул представления о возможностях машин.
Исследователи из SenseTime Research и S‑Lab Наньянского технологического университета представили подробный технический отчёт о прогрессе мультимодальных моделей в области пространственного восприятия и логики. Для оценки они использовали восемь современных бенчмарков и потратили на тестирование свыше миллиарда токенов.
Чтобы свести разрозненные тесты к единому стандарту, авторы предложили универсальную схему из шести базовых пространственных умений: метрические оценки, мысленная реконструкция, пространственные отношения, смена перспективы, деформация и сборка, а также комплексное рассуждение.
Это позволило унифицировать подход к тестированию и сравнивать модели на общей основе. По каждой категории в статье приведены ссылки на источники, включая понятие пространственного интеллекта , концепцию ментальной ротации , а также подход с цепочками рассуждений .
В работе были стандартизированы системные промпты, шаблоны ответов и метрики. Для многовариантных вопросов использовался показатель Chance‑Adjusted Accuracy (CAA), компенсирующий эффект угадывания. Для численных задач — Mean Relative Accuracy (MRA), оценивающая точность при учёте допустимого отклонения.
На фоне конкурентов GPT‑5 уверенно стал лидером. В частности, в подзадачах, связанных с оценкой расстояний и пониманием пространственного расположения объектов, его показатели сравнялись с человеческими. Модель уверенно превзошла Gemini‑2.5‑Pro и всю линейку InternVL. Однако в более сложных категориях — таких как мысленная сборка объектов, смена ракурсов или симуляция действий — разрыв с человеком по-прежнему велик.
Особенно интересно, что в самых трудных случаях закрытые модели вроде GPT‑5 не имеют явного преимущества над открытыми конкурентами. Это делает такие задачи перспективными для всего исследовательского сообщества.
Отдельное внимание в исследовании уделено режимам размышления модели. Чем больше модель тратит «токенов мышления», тем точнее ответ — но только до определённого предела. При слишком глубоком размышлении GPT‑5 часто сталкивается с таймаутами и усечёнными ответами. Наиболее сбалансированные результаты достигаются при среднем уровне усилия.
Также была проведена проверка на устойчивость к эффекту позиции вариантов в тестах с выбором ответа. При «жёсткой» круговой переупаковке — когда правильный ответ должен быть угадан независимо от позиции — точность резко падает. Это указывает на остаточную чувствительность модели к расположению опций.
В целом исследование показывает важный сдвиг: модели уже уверенно справляются с базовыми задачами, где требуется оценка размеров и расположений. Однако там, где вступает в игру полноценное трёхмерное воображение, способность перестраивать мысленный образ и проводить логические операции в пространстве — GPT‑5 пока далёк от человека. Пространственный интеллект пока что остаётся одним из самых сложных и интересных рубежей для искусственного интеллекта.
Исследователи из SenseTime Research и S‑Lab Наньянского технологического университета представили подробный технический отчёт о прогрессе мультимодальных моделей в области пространственного восприятия и логики. Для оценки они использовали восемь современных бенчмарков и потратили на тестирование свыше миллиарда токенов.
Чтобы свести разрозненные тесты к единому стандарту, авторы предложили универсальную схему из шести базовых пространственных умений: метрические оценки, мысленная реконструкция, пространственные отношения, смена перспективы, деформация и сборка, а также комплексное рассуждение.
Это позволило унифицировать подход к тестированию и сравнивать модели на общей основе. По каждой категории в статье приведены ссылки на источники, включая понятие пространственного интеллекта , концепцию ментальной ротации , а также подход с цепочками рассуждений .
В работе были стандартизированы системные промпты, шаблоны ответов и метрики. Для многовариантных вопросов использовался показатель Chance‑Adjusted Accuracy (CAA), компенсирующий эффект угадывания. Для численных задач — Mean Relative Accuracy (MRA), оценивающая точность при учёте допустимого отклонения.
На фоне конкурентов GPT‑5 уверенно стал лидером. В частности, в подзадачах, связанных с оценкой расстояний и пониманием пространственного расположения объектов, его показатели сравнялись с человеческими. Модель уверенно превзошла Gemini‑2.5‑Pro и всю линейку InternVL. Однако в более сложных категориях — таких как мысленная сборка объектов, смена ракурсов или симуляция действий — разрыв с человеком по-прежнему велик.
Особенно интересно, что в самых трудных случаях закрытые модели вроде GPT‑5 не имеют явного преимущества над открытыми конкурентами. Это делает такие задачи перспективными для всего исследовательского сообщества.
Отдельное внимание в исследовании уделено режимам размышления модели. Чем больше модель тратит «токенов мышления», тем точнее ответ — но только до определённого предела. При слишком глубоком размышлении GPT‑5 часто сталкивается с таймаутами и усечёнными ответами. Наиболее сбалансированные результаты достигаются при среднем уровне усилия.
Также была проведена проверка на устойчивость к эффекту позиции вариантов в тестах с выбором ответа. При «жёсткой» круговой переупаковке — когда правильный ответ должен быть угадан независимо от позиции — точность резко падает. Это указывает на остаточную чувствительность модели к расположению опций.
В целом исследование показывает важный сдвиг: модели уже уверенно справляются с базовыми задачами, где требуется оценка размеров и расположений. Однако там, где вступает в игру полноценное трёхмерное воображение, способность перестраивать мысленный образ и проводить логические операции в пространстве — GPT‑5 пока далёк от человека. Пространственный интеллект пока что остаётся одним из самых сложных и интересных рубежей для искусственного интеллекта.
- Источник новости
- www.securitylab.ru