Новости ИИ, который не тупит: Huawei нашла способ успокоить хаос внутри моделей и выжать из них максимум

NewsMaker

I'm just a script
Премиум
19,423
40
8 Ноя 2022
Pangu - архитектура, где каждый винтик работает на идею.


f7knw6d7t96e300uc24jbcowur1btcng.jpg


Команда исследователей, работающая над крупной языковой моделью (LLM) Для просмотра ссылки Войди или Зарегистрируйся под названием Pangu, представила Для просмотра ссылки Войди или Зарегистрируйся , которая, по их словам, способна превзойти подход, ранее применённый в модели DeepSeek. Ключевой акцент — в улучшенной организации вычислительных блоков, известных как «эксперты», и в оптимизации распределения нагрузки между ними. Разработка стала возможной благодаря собственным аппаратным решениям Huawei — несмотря на Для просмотра ссылки Войди или Зарегистрируйся .

В недавно опубликованной научной работе, авторство которой принадлежит 22 ключевым разработчикам Pangu и ещё 56 исследователям, представлена концепция Mixture of Grouped Experts (MoGE) — «смесь сгруппированных экспертов». Эта архитектура выведена из уже известного подхода Mixture of Experts (MoE), который лег в основу многих масштабных и одновременно доступных по затратам ИИ-моделей, включая Для просмотра ссылки Войди или Зарегистрируйся .

Метод MoE хорошо зарекомендовал себя как способ сократить вычислительные издержки при работе с гигантскими языковыми моделями. Он позволяет задействовать только часть подмоделей — «экспертов» — для выполнения конкретной задачи, не включая весь модельный массив. Это существенно снижает энергопотребление и ускоряет обучение, особенно при работе с десятками или сотнями миллиардов параметров.

Однако в самой Для просмотра ссылки Войди или Зарегистрируйся MoE есть уязвимые места. Как отмечают авторы статьи, основная проблема заключается в неравномерной активации «экспертов». Некоторые подмодули перегружаются, в то время как другие простаивают, что приводит к снижению общей эффективности, особенно при распределённых вычислениях — когда обучение или инференс модели происходит одновременно на нескольких устройствах или серверах.

В предложенной Huawei версии MoGE эксперты формируются в группы ещё до этапа выбора. Это значит, что модель не просто выбирает конкретные блоки для каждой задачи, а предварительно структурирует их в логически связанные группы. Такое решение, как утверждают разработчики, позволяет значительно лучше сбалансировать нагрузку и избежать ситуации, когда одни компоненты используются слишком часто, а другие — слишком редко.

Для понимания сути стоит уточнить, кто такие «эксперты» в архитектуре ИИ. Это специализированные части общей модели, каждая из которых «заточена» под определённый тип информации или задачу. Например, один эксперт может быть ориентирован на синтаксический анализ, другой — на математические вычисления, третий — на генерацию кода. Вместо того чтобы запускать все подмодули одновременно, система активирует только наиболее релевантные. Такой подход повышает адаптивность модели и снижает издержки.

Архитектура MoGE, как утверждают в Huawei, сохраняет преимущества MoE, но устраняет её главный недостаток — неустойчивое поведение при масштабировании. Группировка подмоделей помогает выровнять использование ресурсов и повышает стабильность даже при распределённой работе, где традиционные MoE-модели сталкиваются с узкими местами.

Появление MoGE особенно показательно в контексте глобальной гонки за эффективностью ИИ. Для просмотра ссылки Войди или Зарегистрируйся , оказавшиеся под давлением санкций со стороны США, стремятся нарастить внутренние компетенции, улучшая алгоритмы и объединяя программные и аппаратные решения. Ограничения на поставки продвинутых графических ускорителей от Nvidia и других западных производителей заставляют адаптировать архитектуры под доступные ресурсы.

Huawei, в частности, делает ставку на использование собственных вычислительных решений, позволяющих обойти запрет на импорт ИИ-чипов. По словам участников проекта, именно сочетание кастомного оборудования и алгоритмических нововведений позволило им добиться улучшения Для просмотра ссылки Войди или Зарегистрируйся модели Pangu без дополнительных затрат на энергию и инфраструктуру.

Параллельно в Для просмотра ссылки Войди или Зарегистрируйся происходит масштабная мобилизация усилий в области ИИ: создаются национальные дата-центры, формируются альянсы университетов и корпораций, разрабатываются языковые модели нового поколения. На этом фоне заявление Huawei о технологическом прорыве в архитектуре крупных моделей звучит как демонстрация независимости и способности к инновациям даже в условиях внешнего давления.

Интересно, что сама идея MoGE потенциально может применяться и за пределами Huawei. Если её преимущества подтвердятся на практике — при обучении моделей, обработке текстов или анализе больших данных — она может войти в арсенал открытых инструментов или лечь в основу новых индустриальных стандартов. Пока же речь идёт о внутренней разработке, масштабируемость и переносимость которой ещё предстоит доказать.
 
Источник новости
www.securitylab.ru

Похожие темы