ИИ дайджест

Китайская сенсация Deepseek: открытая ИИ-модель, бросившая вызов GPT-4.5

Новости ИИ
В мире искусственного интеллекта, где доминируют такие гиганты, как OpenAI и Google, внезапно появляется новая звезда — китайский стартап Deepseek, выпустивший языковую модель, которая по ряду метрик обходит GPT-4.5 и другие коммерческие модели. И всё это — при бюджете, который крупным игрокам может показаться просто шуткой.

Что такое Deepseek-V3?

Deepseek — это китайская компания, специализирующаяся на языковых моделях. Последняя разработка, Deepseek-V3, уже наделала много шума в ИИ-сообществе.
  • Обгоняет GPT-4.5 и Claude 3.7 по ряду метрик (MMLU-Pro, AIME, HumanEval)
  • Набирает 92% в тестах программирования, 85% — в математических задачах
  • Показывает отличную производительность в области web-разработки и китайской лингвистики
  • Оперирует 671 миллиардами параметров
  • И при этом… стоимость обучения — всего $5.6 млн
Для сравнения: обучение Llama 3 от Meta обошлось примерно в $100 млн+.

Почему это важно?

1. Качество — на уровне лидеров

Модель Deepseek-V3 по индексу качества ИИ Artificial Analysis набрала 80 баллов — столько же, сколько Gemini 1.5 Pro и Claude Sonnet 3.5. Это делает её одной из самых продвинутых open-source моделей в мире.

2. Производительность за копейки

Deepseek использовала всего 2048 GPU, чтобы обучить свою модель за 57 дней. Это эквивалентно 2.78 миллионам GPU-часов. Для сравнения, Meta потратила 30 миллионов GPU-часов на Llama 3.
Результат: эффективность в 10 раз выше.

Почему у Deepseek получилось?

Deepseek столкнулась с ограничениями: из-за санкций США у компании не было доступа к современным чипам Nvidia H100. Вместо этого они использовали урезанные H800, предназначенные для китайского рынка.
Вместо того чтобы сдаться, команда разработала собственные технологии коммуникации между чипами — и этим обошла технические барьеры, не жертвуя качеством. Это стало примером: ограничения стимулируют инновации.

Почему это касается всех нас?

Deepseek показывает, что создавать топовые ИИ-модели можно без миллиардных инвестиций, если использовать ресурсы умно. Это вдохновляет:
  • стартапы по всему миру
  • независимых разработчиков
  • даже правительства стран, у которых нет доступа к дата-центрам масштаба Google

Open Source — открывает рынок

Deepseek пошла дальше и открыла код модели, включая веса. Это делает её доступной для обучения, настройки и встраивания в бизнес-процессы.
Для сравнения: GPT-4 остаётся полностью закрытой моделью.

Что говорят эксперты?

Андрей Карпати (экс-OpenAI):
Бюджет Deepseek — это шутка. Они показали, что можно не тратить сотни миллионов и при этом выпускать модель мирового уровня.
Сообщество разработчиков:
Впечатлены качеством и прозрачностью подхода. Deepseek делится не только моделью, но и техническими тонкостями её реализации.

Цены и доступность

Хотя новая модель дороже предыдущей версии, Deepseek по-прежнему остаётся самой доступной в своём классе.
  • Стоимость вывода: $1.10 за миллион токенов
  • Кэшированные запросы — со скидкой 90%
  • Бесплатное тестирование доступно на платформе chat.deepseek.com

Что это значит для бизнеса?

Если вы:
  • Создаёте чат-ботов
  • Автоматизируете продажи и поддержку
  • Ищете альтернативу GPT для встраивания в CRM/ERP
…теперь у вас есть мощный и доступный инструмент, который:
✅ Продуктивен
✅ Поддерживает разные языки
✅ Открыт для кастомизации
✅ Конкурирует с топовыми решениями

Что дальше?

Deepseek уже намекает на работу над моделью R2, которая может стать ещё более продвинутой версией. Если текущая V3 уже догоняет GPT-4.5, то следующая может реально изменить рынок.

Вывод

Deepseek — это не просто очередная модель. Это новый подход к созданию ИИ:
  • Эффективный
  • Доступный
  • Прозрачный
  • И вдохновляющий
Именно такие проекты двигают ИИ-индустрию вперёд.
Источник: https://the-decoder.com/deepseeks-5-6m-chinese-llm-wonder-shakes-up-the-ai-elite/