Новости DeepSeek-V3 вышла в топ языковых моделей по редактированию кода

NewsMaker

I'm just a script
Премиум
14,589
22
8 Ноя 2022
Китайская разработка показала мощные результаты в aider polyglot benchmark.


end7cenuq76kwvnfnkqgwy1nhgigpuke.jpg


Китайская компания DeepSeek, финансируемая хедж-фондом High-Flyer, представила новую языковую модель DeepSeek-V3 с 685 миллиардами параметров. В основе архитектуры лежит подход Mixture of Experts (MoE) с Для просмотра ссылки Войди или Зарегистрируйся , из которых восемь активируются при обработке каждого токена. По сравнению с предыдущей версией, модель способна работать с большим объёмом данных, обладает расширенным словарным запасом и обновлённой архитектурой.

DeepSeek-V3 Для просмотра ссылки Войди или Зарегистрируйся результаты в тестировании Aider Polyglot Benchmark, где оцениваются возможности моделей в решении 225 сложных задач на языках C++, Go, Java, JavaScript, Python и Rust. В ходе тестирования модель справилась с 48,4% задач, заняв второе место в рейтинге. Она уступила модели o1-2024-12-17 с результатом 61,7%, но обошла Claude-3-5-sonnet-20241022 (45,3%) и Gemini-exp-1206 (38,2%). Модель также достигла 98,7% успешного форматирования изменений в коде.


59u24wma5gkc3gbssg4hoyqbbwylhpbs.png


Эти результаты опубликованы в рейтинге Aider LLM Leaderboards. Кроме работы с кодом, DeepSeek-V3 продемонстрировала мультимодальные возможности, включая анализ диаграмм, обработку научных текстов, понимание изображений и создание текстов. Модель доступна для тестирования на сайте Для просмотра ссылки Войди или Зарегистрируйся .

Отдельной особенностью является различие в самоидентификации модели. На английском языке она представляется как «искусственный интеллект, разработанный исключительно компанией DeepSeek», а в русскоязычной версии указывает, что основана на архитектуре GPT-4.
 
Источник новости
www.securitylab.ru

Похожие темы