Новости Будущее отменяется: многообещающий ИИ-разработчик Devin провалил тесты

NewsMaker

I'm just a script
Премиум
19,465
40
8 Ноя 2022
Devin пытался стать универсальным инструментом, но переоценил свои возможности.


1w3hyhc8hcoavrrhia2ossk3c2781pds.jpg


В марте 2024 года компания Cognition AI Для просмотра ссылки Войди или Зарегистрируйся «первого автономного ИИ-программиста» под названием Devin, обещая революцию в разработке программного обеспечения. Сервис, который Для просмотра ссылки Войди или Зарегистрируйся в декабре 2024 года по цене от $500 в месяц, заявлял о возможностях создания и развертывания приложений, автоматического исправления ошибок и выполнения других сложных задач. Однако первые тесты показали, что Devin далек от выполнения таких обещаний.

По заявлению Cognition AI, Devin способен писать, запускать и тестировать код, помогать разработчикам с задачами, рецензировать pull request -ы, мигрировать код, решать проблемы на вызовах и даже заказывать еду через сервис доставки. Интерфейсом служит платформа Slack, где пользователи отправляют команды в вычислительную среду, работающую в Docker-контейнере с интеграцией API. Однако на практике реализация всех функций оказалась сложной задачей для «автономного программиста».

Видеопрезентация Cognition AI вызвала Для просмотра ссылки Войди или Зарегистрируйся разработчиков, а в работе Devin вовсе Для просмотра ссылки Войди или Зарегистрируйся критические уязвимости, что дополнительно подорвало доверие к продукту. Специалисты Answer.AI Для просмотра ссылки Войди или Зарегистрируйся Devin, дав ему 20 задач. Результаты оказались разочаровывающими: только 3 задания Для просмотра ссылки Войди или Зарегистрируйся успешно.

Devin справился с переносом данных из базы Notion в Google Таблицы и созданием трекера для проверки исторических позиций Юпитера и Сатурна. Также Devin сумел найти информацию о разработке Discord-бота на Python. Однако на этом успехи закончились. Остальные 17 задач либо провалились, либо были выполнены с проблемами.

Сложности возникли даже при выполнении, казалось бы, простых заданий. Devin тратил дни на попытки решить невозможные задачи, вместо того чтобы остановиться и определить фундаментальные ограничения. Например, при попытке развернуть несколько приложений на платформе Railway, которая не поддерживает подобную функцию, Devin игнорировал ограничения и генерировал несуществующие решения.

Среди других недостатков — чрезмерно сложные и непрактичные решения. Неспособность предсказать, справится ли Devin с задачей, добавила проекту отрицательных оценок.

Исследователи отметили, что пользовательский интерфейс Devin был впечатляющим, но его реальная производительность оставляла желать лучшего. «Обещания автономности стали недостатком, поскольку Devin тратил время на нерешаемые задачи, игнорируя очевидные препятствия», — написали специалисты. Cognition AI не предоставила комментариев о результатах тестирования.
 
Источник новости
www.securitylab.ru

Похожие темы