Explainers

Unweight от Cloudflare: сжимаем LLM на 22% без потери качества [скептический взгляд]

Ваш следующий AI-запрос стал дешевле — возможно. Unweight от Cloudflare ужимает LLM на 22% без малейшей потери качества, обещая более быстрый инференс для широких масс. Но давайте пока не будем открывать шампанское.

График, показывающий снижение размера модели на 22% с помощью Unweight и большее количество моделей, помещающихся на одном GPU H100

⚡ Key Takeaways

  • Unweight достигает 22% беспoтерьного сжатия LLM, нацеливаясь на избыточные BF16 экспоненты, экономя ~3 ГБ VRAM на H100. 𝕏
  • Распаковка в кеш-памяти на чипе перекрывает время простоя тензорных ядер, обеспечивая более быстрый инференс без потери качества. 𝕏
  • Ядра с открытым исходным кодом способствуют инновациям, но технология сияет ярче всего в экосистеме Cloudflare — тонкий строитель «рва» (moat). 𝕏
Jordan Kim
Written by

Jordan Kim

Cloud and infrastructure correspondent. Covers Kubernetes, DevOps tooling, and platform engineering.

Worth sharing?

Get the best Developer Tools stories of the week in your inbox — no noise, no spam.

Originally reported by Cloudflare Blog

Stay in the loop

The week's most important stories from DevTools Feed, delivered once a week.