Gemma 4: 듀얼 RTX에서 초당 96토큰, 점심때 쿠버네티스 버그까지 싹 고침
초당 96 토큰. 내 듀얼 RTX 셋업에서 Gemma 4가 쿠버네티스 버그 리포트를 쌉가능으로 씹어댄 속도다. 구글 오픈 모델이 '기다리며 빌어먹기'를 '바로 배포하고 디버깅'으로 바꿔놓았다.
⚡ Key Takeaways
- Gemma 4, 듀얼 RTX 가성비 하드웨어에서 96 tok/s로 공식 벤치마크 완파.
- 출시부터 프로덕션 추론까지: 커스텀 llama.cpp 빌드 포함 2시간.
- 쿠버네티스 실제 코드 버그—초 만에 프로덕션 Go와 YAML 픽스.
Worth sharing?
Get the best Developer Tools stories of the week in your inbox — no noise, no spam.
Originally reported by dev.to