Gemma 4 : 96 tok/s sur un duo RTX, mes bugs Kubernetes corrigés avant le déjeuner
96 tok/s. Voilà Gemma 4 qui décortique les rapports de bugs Kubernetes sur mon setup duo RTX. Le modèle open source de Google transforme le « attends et prie » en « déploie et débogue illico ».
⚡ Key Takeaways
- Gemma 4 atteint 96 tok/s sur du hardware RTX grand public en dual, pulvérisant les benchmarks officiels.
- De la sortie à l’inférence en prod : 2 heures, build llama.cpp custom inclus.
- Correctifs de bugs réels en code Kubernetes — Go et YAML prêts pour la prod en quelques secondes.
Worth sharing?
Get the best Developer Tools stories of the week in your inbox — no noise, no spam.
Originally reported by dev.to