Новости Китайцы создали "уникальный" ИИ — точь-в-точь как у Google

NewsMaker

I'm just a script
Премиум
19,438
40
8 Ноя 2022
Китайский ИИ, который думал как Gemini, но притворялся ChatGPT.


nsyq58nujekiu0q9y1dtz2d37d04xfpv.jpg


На прошлой неделе китайская лаборатория DeepSeek представила новую версию своего ИИ-моделя R1, получившую индекс R1-0528. Обновлённая система продемонстрировала впечатляющие результаты на математических и программных тестах, однако сразу же вызвала волну подозрений среди специалистов. Причина — схожесть с результатами, характерными для ИИ из линейки Gemini от Google.

Источники данных, использованных для обучения R1-0528, официально не раскрываются, но отдельные признаки натолкнули исследователей на мысль, что модель могла быть частично обучена на выходных данных Gemini 2.5 Pro. Об этом Для просмотра ссылки Войди или Зарегистрируйся разработчик Сэм Пэк, занимающийся тестированием «эмоционального интеллекта» ИИ. По его наблюдениям, R1-0528 склонна выбирать формулировки, характерные для модели Google. Аналогичные выводы сделал и анонимный разработчик, создавший оценку свободы выражения для ИИ под названием SpeechMap: по его словам, «мышление» DeepSeek подозрительно напоминает поведение Gemini в логических задачах.

Прямых доказательств пока не представлено, но это далеко не первый случай, когда DeepSeek Для просмотра ссылки Войди или Зарегистрируйся в использовании данных конкурентов. Ещё в декабре 2024 года разработчики заметили, что модель DeepSeek V3 нередко идентифицировала себя как ChatGPT, что наводило на мысль об использовании журналов чатов OpenAI для обучения. Позднее стало известно, что Microsoft, как один из главных партнёров OpenAI, Для просмотра ссылки Войди или Зарегистрируйся подозрительную активность в разработческих аккаунтах OpenAI — по их мнению, связанной с DeepSeek. Через эти аккаунты в конце 2024 года могли быть выгружены крупные объёмы данных.

Такие действия напоминают технику, известную как дистилляция — процесс, при котором новая модель обучается на выходных данных более продвинутой системы. Несмотря на то, что метод считается технически допустимым, он напрямую нарушает условия обслуживания OpenAI: использовать ответы их моделей для создания конкурирующих решений запрещено. Как показывают исследования, проблемы с Для просмотра ссылки Войди или Зарегистрируйся китайской модели выходят далеко за рамки простого нарушения пользовательских соглашений.

При этом распознать источник обучения становится всё сложнее. Интернет захлёстывает волна контента, созданного ИИ, и многие современные модели независимо друг от друга начинают использовать одни и те же обороты, термины и фразы. Боты генерируют тексты на Reddit и X*, а сайты-контент-фермы заполняют выдачу однотипным ИИ-спамом. Всё это усложняет фильтрацию обучающих наборов и позволяет чужим данным просачиваться сквозь защиту. Дополнительную озабоченность вызывает тот факт, что Для просмотра ссылки Войди или Зарегистрируйся пользователей DeepSeek передаются на серверы в Китае.

Тем не менее, по Для просмотра ссылки Войди или Зарегистрируйся некоторых специалистов, допустить возможность обучения DeepSeek на результатах Gemini — вполне реалистичный сценарий. Так считает, например, Нейтан Ламберт из исследовательского института AI2. По его словам, имея деньги, но ограниченное количество видеокарт, логичным ходом для DeepSeek было бы массовое генерирование синтетических данных с помощью лучших публичных моделей.

В ответ на участившиеся попытки дистилляции, крупнейшие ИИ-компании ужесточают защиту. OpenAI в апреле начала требовать прохождения верификации по ID для доступа к некоторым продвинутым моделям, при этом список поддерживаемых стран не включает Китай. Google пошёл ещё дальше: теперь следы рассуждений (traces), которые генерируют их модели на платформе AI Studio, подвергаются предварительному «сжатию» — этот шаг затрудняет копирование логики моделей. Аналогичную меру недавно внедрила и Anthropic, объяснив это желанием защитить конкурентные преимущества своих решений.

Пока Google не дал официального комментария по ситуации с DeepSeek, но, судя по усиливающимся мерам защиты в индустрии, проблема дистилляции и утечки данных уже переросла в серьёзную гонку за контроль над интеллектуальной собственностью. Эксперты также отмечают, что китайская модель имеет серьёзные Для просмотра ссылки Войди или Зарегистрируйся в системах безопасности, что может создавать дополнительные риски для пользователей.
 
Источник новости
www.securitylab.ru

Похожие темы