
Китайская ИИ-лаборатория DeepSeek Для просмотра ссылки Войди
DeepSeek-R1-0528-Qwen3-8B создана на базе Qwen3-8B, которую Alibaba презентовала в мае. Согласно заявлению компании, она показала результаты лучше Gemini 2.5 Flash от Google в AIME 2025 — сборнике сложных математических вопросов.
«Дистиллированная» версия — упрощенный и ускоренный вариант большой модели машинного обучения, полученный с помощью метода дистилляции знаний. Подобные нейросети чаще всего не так производительны, но гораздо менее требовательны к вычислениям.
Согласно данным Для просмотра ссылки Войди
DeepSeek использовала обновленную версию R1 и Qwen3-8B для обучения и настройки DeepSeek-R1-0528-Qwen3-8B.
Новая вариант основной нейросети R1 имеет незначительные обновления, утверждает компания. Она доступна на платформе Hugging Face.
Разработчик с ником xlr8harder обратил внимание, что модель менее охотно дискуссирует на спорные темы, особенно связанные с китайским правительством.
«DeepSeek заслуживает критики за этот релиз: эта модель — большой шаг назад для свободы слова. Смягчает ситуацию то, что нейросеть имеет открытый исходный код с разрешительной лицензией, так что сообщество может (и будет) решать эту проблему», — отметил он.
В одном из примеров модель отказалась приводить аргументы за нарушение прав человека в лагерях для интернированных в Синьцзяне. Она признала сам факт, но избежала прямой критики китайского правительства.
«Интересно, хотя и не совсем удивительно, что она способна привести лагеря в качестве примера нарушения прав человека, но отрицает это, когда ее спрашивают напрямую», — написал xlr8harder.
Напомним, в апреле DeepSeek Для просмотра ссылки Войди
- Источник новости
- forklog.com