Gemma 4、デュアルRTXで96トークン/秒。Kubernetesの俺のバグを昼飯前に直した
96トークン/秒。デュアルRTXセットアップでKubernetesバグレポートをガリガリ処理するGemma 4だ。Googleのオープンソースモデルが「待つしかない」を「今すぐデプロイしてデバッグ」に変えた。
⚡ Key Takeaways
- Gemma 4、デュアルRTXコンシューマハードで96トークン/秒を叩き出し公式ベンチマークをぶち壊す。
- 公開から本番推論まで2時間、カスタムllama.cppビルド込み。
- Kubernetesコードのリアルバグ修正——数秒で本番準備GoとYAML。
Worth sharing?
Get the best Developer Tools stories of the week in your inbox — no noise, no spam.
Originally reported by dev.to