Новости DeepMind представила RT-2: робота, который может переводить ваши мысли в действие

NewsMaker

I'm just a script
Премиум
14,627
22
8 Ноя 2022
Робот обучается на данных из интернета и может стать личным ассистентом.


wzu2rx0jtev4pwy437ex74azl537k09k.png


Компания DeepMind Для просмотра ссылки Войди или Зарегистрируйся новую модель Robotic Transformer 2 (RT-2), способную переводить визуальные и языковые данные в конкретные действия. Модель, основанная на принципах vision-language-action (VLA), обучается на данных, полученных из интернета и робототехники, и преобразует информацию в обобщенные инструкции для управления роботами.

RT-2 разработана на основе предыдущей модели Robotic Transformer 1 (RT-1), которая была обучена на многозадачных демонстрациях и способна учиться комбинациям различных задач и объектов, представленных в робототехнических данных.


khxrbll9io1cl7hnnkj0vsneuzc2sjg4.png


<span style="font-size: 8pt;">Модель получает изображения с камеры робота и напрямую прогнозирует действия, которые должен выполнить робот</span>

RT-2 демонстрирует улучшенные способности к обобщению, а также глубокое понимание семантики и визуализации, превосходящее рамки данных, с которыми модель работала ранее. Сюда входят интерпретация новых команд и реагирование на команды пользователя, выполняя примитивное рассуждение, например, о категориях объектов или их высокоуровневых описаниях.


3ce716ls9aaf1wlyozbzgxk32d2vp7xb.png


<span style="font-size: 8pt;">Модель также может предсказывать действия робота. В этом примере на инструкцию: «Мне нужно забить гвоздь, какой предмет со сцены мог бы пригодиться?» модель предсказала, что робот после логических рассуждений возьмёт камень</span>

RT-2 обладает способностью выполнять более сложные команды, которые требуют рассуждения о промежуточных шагах, необходимых для выполнения задачи. Благодаря своей основе на VLM-модели, RT-2 может планировать действия, основываясь как на изображениях, так и на текстовых командах, что позволяет осуществлять визуально обоснованное планирование.

RT-2 демонстрирует, что VLM-модели могут напрямую управлять роботом путем сочетания предварительного обучения VLM с робототехническими данными. RT-2 не просто улучшает существующие VLM-моделей, но и открывает перспективы создания универсального физического робота, способного рассуждать, решать проблемы и интерпретировать информацию для выполнения широкого спектра задач в реальном мире.
 
Источник новости
www.securitylab.ru

Похожие темы