ChatGPT, Qwen или DeepSeek: какая нейросеть лучше?

Бесплатный DeepSeek обещает уровень платного флагмана OpenAI, а Alibaba утверждает, что ее новый Qwen обогнал и того и другого. «Бизнес FM» пообщалась с претендентами на лидерство в мире ИИ

Фото: Илья Старков / Фотобанк Лори

На этапе выхода своих последних моделей все разработчики называли их лидерами по результатам если не всех, то многих стандартизированных тестов. Для наглядности «Бизнес FM» попросила нашумевший DeepSeek, свежий Qwen от Alibaba и эталонный ChatGPT ответить на вопрос о том, что такое «дистилляция ИИ». По версии властей США, с помощью нее китайские разработчики DeepSeek могли паразитировать на продуктах OpenAI и экономить деньги.

Первой выступит нейросеть от OpenAI:

«Дистилляция модели ИИ — это метод оптимизации нейросетей, при котором большая, мощная модель (учитель) передает знания уменьшенной модели (ученику), сохраняя при этом высокую точность. Вместо обучения с нуля ученик обучается на предсказаниях учителя, включая вероятностное распределение классов (soft labels), что помогает ему лучше понимать сложные зависимости. Это позволяет создавать компактные, быстрые и менее ресурсоемкие модели, которые подходят для мобильных устройств, встроенных систем и облачных сервисов с ограниченными вычислительными возможностями. Дистилляция широко применяется в обработке изображений, речи и текста, улучшая производительность моделей без значительной потери качества».

Флагман OpenAI, модель o1, доступен только по платной подписке, поэтому для чистоты эксперимента с точки зрения пользователя «Бизнес FM» использовала старшую из бесплатных версий ChatGPT.

Китайская DeepSeek утверждает, что ее продукт был создан буквально за несколько месяцев и за микроскопические деньги, но не уступает даже o1. Вот его ответ:

«Дистилляция ИИ — метод сжатия большой модели (учитель) в компактную (ученик): ученик обучается на вероятностных выходах учителя (а не на жестких метках), сохраняя точность при меньшем размере. Это ускоряет вывод, снижает потребление памяти и энергии, позволяя внедрять ИИ на слабые устройства (смартфоны, интернет вещей). Примеры — уменьшенные версии BERT или GPT, близкие к оригиналам по качеству, но эффективнее. Плюсы: экономия ресурсов, доступность для умных устройств. Минусы: малая потеря точности, время на обучение. Итог: мощный ИИ становится практичным с минимальными компромиссами».

Alibaba ворвался на рынок ИИ в китайский Новый год, который пришелся на 29 января. Р етейл-гигант утверждает, что последняя версия его модели Qwen обходит всех конкурентов, но обвала, сравнимого с реакцией на DeepSeek, на биржах не произошло.

«Дистилляция модели ИИ — это метод обучения, при котором знания из большой сложной модели (учителя) передаются в более компактную модель (ученика), чтобы сделать ее быстрее и эффективнее при сохранении высокой точности. Вместо использования исходных меток данных «ученик» обучается на основе выходов «учителя», например его вероятностных предсказаний, что позволяет маленькой модели имитировать поведение мощной системы с меньшими вычислительными затратами. Этот подход широко применяется для оптимизации производительности, снижения затрат на развертывание и создания легковесных версий моделей, таких как DistilBERT или мобильные версии сверточных сетей, сохраняя при этом качество работы».

В итоге ответы всех моделей получились в общем и целом понятными и разумными, хотя, на личный взгляд автора, у DeepSeek получилось уместить в ограниченные 80 слов немного больше нюансов и подробностей. Обе китайские нейросети доступны для пользователей в России, хотя DeepSeek пока немного подвисает, ссылаясь на количество запросов. ChatGPT и ряд других западных моделей в России не работают, хотя доступны через VPN.

ChatGPT, Qwen или DeepSeek: какая нейросеть лучше?

Рекомендуем:

Фотоистории