Новости DeepSeek обнулила месяцы работы: один сбой в чипах Huawei погубил весь прогресс R2

NewsMaker

I'm just a script
Премиум
19,821
44
8 Ноя 2022
Когда “в два раза быстрее” значит “мы так и не закончили".


iyiia20xlxrzqqtf1x0dtuvemnpu0671.jpg


Китайская компания DeepSeek столкнулась с серьезными техническими проблемами при попытке обучить новое поколение искусственного интеллекта на отечественных процессорах Huawei. Разработка модели R2, которая должна была стать преемником нашумевшего DeepSeek R1, затянулась на месяцы из-за нестабильной работы китайских чипов.

После успешного запуска модели R1 в начале года на DeepSeek начали давить правительственные структуры, требуя перейти на использование процессоров Huawei Ascend вместо американских Nvidia. Об этом сообщает Financial Times со ссылкой на три анонимных источника в индустрии.

Несколько месяцев целая команда инженеров Huawei работала совместно с DeepSeek, пытаясь адаптировать систему обучения нейросетей под китайские процессоры. Однако результат оказался катастрофическим - компании не удалось завершить ни одного полного цикла обучения модели.

Основными проблемами стали нестабильная работа чипов, крайне медленные соединения между процессорами и недоработанное программное обеспечение. В условиях, когда обучение передовых моделей искусственного интеллекта требует одновременной работы десятков тысяч процессоров, отказ даже одного компонента означает полный перезапуск процесса.

На бумаге процессоры Huawei Ascend 910C, которые используются в системах CloudMatrix, выглядят даже лучше американских аналогов Nvidia H20. Китайские чипы обладают большим объемом памяти и вдвое превосходят конкурентов по производительности операций с плавающей точкой. Однако теоретические преимущества не смогли компенсировать практические недостатки.

Дополнительные сложности создала необходимость полной переработки программного обеспечения. DeepSeek годами оптимизировала свои алгоритмы под архитектуру Nvidia, используя специальные форматы данных FP8. Процессоры Huawei не поддерживают этот формат, что заставляло использовать более ресурсоемкие 16-битные типы данных.

В результате DeepSeek была вынуждена отказаться от амбициозных планов и вернуться к проверенным решениям Nvidia H20 для обучения модели R2. Процессоры Huawei теперь используются только для менее требовательных задач вывода результатов, где нагрузка на систему значительно ниже.

Для новичков в области AI-чипов обычной практикой является фокус на задачах вывода результатов, где последствия сбоев менее критичны, пока они отрабатывают технологии для масштабирования. Huawei движется в этом направлении со своими системами CloudMatrix, которые призваны упростить развертывание крупных тренировочных кластеров.

Одной из возможных причин неудачи могло стать использование процессоров Huawei именно для фазы обучения с подкреплением, которая требует обработки огромных объемов токенов для придания базовой модели способностей к "рассуждению". Это может объяснить, почему речь идет именно о модели R2, а не V4.

События развиваются на фоне сообщений Bloomberg о том, что китайские власти начали отговаривать разработчиков от использования процессоров Nvidia H20, особенно для чувствительных правительственных проектов.
 
Источник новости
www.securitylab.ru

Похожие темы