GPT-5.4-läcka: 2M tokenkontext + persistent tillstånd = KV-cacheexplosion Detta är Minneskrigen i realtid HBM för vikter. SRAM för latenskritisk inferens. Optiska sammankopplingar för att binda ihop allt Den bifurkation jag har skrivit om är inte längre teoretisk.