Unweight от Cloudflare: сжимаем LLM на 22% без потери качества [скептический взгляд]
Ваш следующий AI-запрос стал дешевле — возможно. Unweight от Cloudflare ужимает LLM на 22% без малейшей потери качества, обещая более быстрый инференс для широких масс. Но давайте пока не будем открывать шампанское.
⚡ Key Takeaways
- Unweight достигает 22% беспoтерьного сжатия LLM, нацеливаясь на избыточные BF16 экспоненты, экономя ~3 ГБ VRAM на H100. 𝕏
- Распаковка в кеш-памяти на чипе перекрывает время простоя тензорных ядер, обеспечивая более быстрый инференс без потери качества. 𝕏
- Ядра с открытым исходным кодом способствуют инновациям, но технология сияет ярче всего в экосистеме Cloudflare — тонкий строитель «рва» (moat). 𝕏
Worth sharing?
Get the best Developer Tools stories of the week in your inbox — no noise, no spam.
Originally reported by Cloudflare Blog