
Владеющая TikTok компания ByteDance Для просмотра ссылки Войди
GR-3 — большая языковая модель типа «зрение-язык-действие», которая дает возможность ботам следовать командам на естественном языке и выполнять универсальные задачи с незнакомыми предметами. Они могут работать в новых условиях или с абстрактными понятиями, связанными с размерами и пространственными отношениями.
В опубликованном на сайте видеоролике продемонстрировано, как лабораторный двурукий робот ByteMini может вставлять вешалку в рубашку и размещать ее на стойке.
В отдельном техническом отчете команда сообщила, что бот справляется с одеждой с короткими рукавами, хотя «все предметы в обучающих данных были с длинными».
Благодаря GR-3 робот может выполнять команды по выбору конкретной вещи из нескольких и размещать ее в заданное место.
Система способна распознавать объект не только по названию, но и по размеру (например, «большая тарелка») или по пространственному признаку (например, «слева»). Она может полностью выполнить задачу «убрать обеденный стол» по единственной команде.
Для обучения модели ByteDance использовала многокомпонентный подход, включающий:
- совместное обучение на больших массивах данных в формате «изображение-текст»;
- дообучение на информации о траекториях действий человека, собранных с помощью VR-устройств;
- настройка методом подражания на данных о движениях андроида.
Напомним, в январе стартап Perplexity AI Для просмотра ссылки Войди
- Источник новости
- forklog.com