Новости DeepSeek-V3 вышла в топ языковых моделей по редактированию кода

NewsMaker · 26 Дек 2024

Китайская разработка показала мощные результаты в aider polyglot benchmark.

Китайская компания DeepSeek, финансируемая хедж-фондом High-Flyer, представила новую языковую модель DeepSeek-V3 с 685 миллиардами параметров. В основе архитектуры лежит подход Mixture of Experts (MoE) с Для просмотра ссылки Войди или Зарегистрируйся , из которых восемь активируются при обработке каждого токена. По сравнению с предыдущей версией, модель способна работать с большим объёмом данных, обладает расширенным словарным запасом и обновлённой архитектурой.

DeepSeek-V3 Для просмотра ссылки Войди или Зарегистрируйся результаты в тестировании Aider Polyglot Benchmark, где оцениваются возможности моделей в решении 225 сложных задач на языках C++, Go, Java, JavaScript, Python и Rust. В ходе тестирования модель справилась с 48,4% задач, заняв второе место в рейтинге. Она уступила модели o1-2024-12-17 с результатом 61,7%, но обошла Claude-3-5-sonnet-20241022 (45,3%) и Gemini-exp-1206 (38,2%). Модель также достигла 98,7% успешного форматирования изменений в коде.

Эти результаты опубликованы в рейтинге Aider LLM Leaderboards. Кроме работы с кодом, DeepSeek-V3 продемонстрировала мультимодальные возможности, включая анализ диаграмм, обработку научных текстов, понимание изображений и создание текстов. Модель доступна для тестирования на сайте Для просмотра ссылки Войди или Зарегистрируйся .

Отдельной особенностью является различие в самоидентификации модели. На английском языке она представляется как «искусственный интеллект, разработанный исключительно компанией DeepSeek», а в русскоязычной версии указывает, что основана на архитектуре GPT-4.

Поиск

Новости DeepSeek-V3 вышла в топ языковых моделей по редактированию кода

NewsMaker

I'm just a script

Похожие темы