На этапе выхода своих последних моделей все разработчики называли их лидерами по результатам если не всех, то многих стандартизированных тестов. Для наглядности «Бизнес FM» попросила нашумевший DeepSeek, свежий Qwen от Alibaba и эталонный ChatGPT ответить на вопрос о том, что такое «дистилляция ИИ». По версии властей США, с помощью нее китайские разработчики DeepSeek могли паразитировать на продуктах OpenAI и экономить деньги.

Первой выступит нейросеть от OpenAI:

«Дистилляция модели ИИ — это метод оптимизации нейросетей, при котором большая, мощная модель (учитель) передает знания уменьшенной модели (ученику), сохраняя при этом высокую точность. Вместо обучения с нуля ученик обучается на предсказаниях учителя, включая вероятностное распределение классов (soft labels), что помогает ему лучше понимать сложные зависимости. Это позволяет создавать компактные, быстрые и менее ресурсоемкие модели, которые подходят для мобильных устройств, встроенных систем и облачных сервисов с ограниченными вычислительными возможностями. Дистилляция широко применяется в обработке изображений, речи и текста, улучшая производительность моделей без значительной потери качества».

Флагман OpenAI, модель o1, доступен только по платной подписке, поэтому для чистоты эксперимента с точки зрения пользователя «Бизнес FM» использовала старшую из бесплатных версий ChatGPT.

Китайская DeepSeek утверждает, что ее продукт был создан буквально за несколько месяцев и за микроскопические деньги, но не уступает даже o1. Вот его ответ:

«Дистилляция ИИ — метод сжатия большой модели (учитель) в компактную (ученик): ученик обучается на вероятностных выходах учителя (а не на жестких метках), сохраняя точность при меньшем размере. Это ускоряет вывод, снижает потребление памяти и энергии, позволяя внедрять ИИ на слабые устройства (смартфоны, интернет вещей). Примеры — уменьшенные версии BERT или GPT, близкие к оригиналам по качеству, но эффективнее. Плюсы: экономия ресурсов, доступность для умных устройств. Минусы: малая потеря точности, время на обучение. Итог: мощный ИИ становится практичным с минимальными компромиссами».

Alibaba ворвался на рынок ИИ в китайский Новый год, который пришелся на 29 января. Ретейл-гигант утверждает, что последняя версия его модели Qwen обходит всех конкурентов, но обвала, сравнимого с реакцией на DeepSeek, на биржах не произошло.

«Дистилляция модели ИИ — это метод обучения, при котором знания из большой сложной модели (учителя) передаются в более компактную модель (ученика), чтобы сделать ее быстрее и эффективнее при сохранении высокой точности. Вместо использования исходных меток данных «ученик» обучается на основе выходов «учителя», например его вероятностных предсказаний, что позволяет маленькой модели имитировать поведение мощной системы с меньшими вычислительными затратами. Этот подход широко применяется для оптимизации производительности, снижения затрат на развертывание и создания легковесных версий моделей, таких как DistilBERT или мобильные версии сверточных сетей, сохраняя при этом качество работы».

В итоге ответы всех моделей получились в общем и целом понятными и разумными, хотя, на личный взгляд автора, у DeepSeek получилось уместить в ограниченные 80 слов немного больше нюансов и подробностей. Обе китайские нейросети доступны для пользователей в России, хотя DeepSeek пока немного подвисает, ссылаясь на количество запросов. ChatGPT и ряд других западных моделей в России не работают, хотя доступны через VPN.