Le hack photonique de PRISM divise par 16 le trafic du cache KV du jour au lendemain
Un seul pas de décodage dans votre LLM préféré avale des gigaoctets de bande passante pour le cache KV. PRISM renverse la donne avec des photons, transformant les scans O(n) en pure magie O(1).
theAIcatchupApr 07, 20263 min read
⚡ Key Takeaways
PRISM divise par 16 la mémoire du cache KV grâce à une sélection de blocs photonique en O(1).𝕏
Le goulot est la bande passante, pas le calcul — le GQA a aidé, les photons révolutionnent.𝕏
Efficacité énergétique x10 000 ; ouvre la voie à l'inférence 1M jetons sur hardware grand public.𝕏
The 60-Second TL;DR
PRISM divise par 16 la mémoire du cache KV grâce à une sélection de blocs photonique en O(1).
Le goulot est la bande passante, pas le calcul — le GQA a aidé, les photons révolutionnent.
Efficacité énergétique x10 000 ; ouvre la voie à l'inférence 1M jetons sur hardware grand public.