Gemma 4: 96 tok/s su due RTX, e i miei bug Kubernetes sistemati a pranzo
96 token al secondo. Ecco Gemma 4 che divora report di bug Kubernetes sul mio setup con due RTX. Il modello open di Google ha trasformato 'aspetta e spera' in 'deploya e debugga subito.'
⚡ Key Takeaways
- Gemma 4 centra 96 tok/s su hardware consumer dual RTX, annientando i benchmark ufficiali.
- Dal rilascio all'inferenza in produzione: 2 ore, build custom llama.cpp inclusa.
- Fix reali a bug Kubernetes—codice Go e YAML pronti per produzione in secondi.
Worth sharing?
Get the best Developer Tools stories of the week in your inbox — no noise, no spam.
Originally reported by dev.to