Gemma 4: 96 ток/с на паре RTX, баги Kubernetes починил к обеду
96 токенов в секунду. Gemma 4 пережёвывает отчёты о багах Kubernetes на моей паре RTX. Открытая модель Google превратила «жди и надейся» в «разверни и дебажь прямо сейчас»
⚡ Key Takeaways
- Gemma 4 выжимает 96 ток/с на паре RTX для потребителей, рвёт официальные бенчмарки в клочья.
- От релиза до продакшн-инференса: 2 часа, включая сборку кастомного llama.cpp.
- Реальные фиксы багов в Kubernetes-коде — готовый Go и YAML за секунды.
Worth sharing?
Get the best Developer Tools stories of the week in your inbox — no noise, no spam.
Originally reported by dev.to