Gemma 4: 96 tokens/segundo em duas RTX, consertando meus bugs do Kubernetes no almoço
96 tokens por segundo. É a Gemma 4 devorando relatórios de bugs do Kubernetes no meu dual RTX. O modelo aberto do Google transformou 'espera e reza' em 'implanta e debuga agora'.
⚡ Key Takeaways
- Gemma 4 voando a 96 tok/s em dual RTX comum, detonando benchmarks oficiais.
- Da release pra inferência em produção: 2 horas, com build custom de llama.cpp.
- Correções reais de bugs em código Kubernetes — Go e YAML de produção em segundos.
Worth sharing?
Get the best Developer Tools stories of the week in your inbox — no noise, no spam.
Originally reported by dev.to