Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
🚨 ULTIMĂ PERIOADĂ: Un cercetător Google și laureat al Premiului Turing tocmai a publicat un articol care expune adevărata criză din AI.
Nu e antrenament. Este o inferență. Iar hardware-ul pe care îl folosim nu a fost niciodată proiectat pentru asta.
Lucrarea este scrisă de Xiaoyu Ma și David Patterson. Acceptat de IEEE Computer, 2026.
Fără exagerare. Fără lansare de produs. Doar o explicație rece a motivului pentru care deservirea LLM-urilor este fundamental defectă la nivel hardware.
Argumentul de bază este brutal:
→ GPU FLOPS a crescut de 80 de ori între 2012 și 2022
→ Lățimea de bandă a memoriei a crescut de doar 17 ori în aceeași perioadă
→ costurile HBM pe GB cresc, nu scad
→ Faza de decodare este limitată de memorie, nu de calcul
→ Construim inferență pe cipuri concepute pentru antrenament
Iată partea cea mai nebună:
OpenAI a pierdut aproximativ 5 miliarde de dolari din veniturile de 3,7 miliarde. Blocajul nu este calitatea modelului. Este costul de a oferi fiecare token fiecărui utilizator. Inferența consumă aceste companii.
Și cinci tendințe agravează situația simultan:
→ modele MoE precum DeepSeek-V3 cu 256 experți care explodează memoria
→ Modele de raționament care generează lanțuri masive de gânduri înainte de a răspunde
→ Intrări multimodale (imagine, audio, video) care eclipsează textul
→ Ferestre cu context lung care solicită cache KV
→ RAG pipeline-uri care injectează mai mult context la fiecare cerere
Cele patru schimbări hardware propuse:
→ Flash cu lățime de bandă mare: stive de 512GB la nivel HBM, de 10 ori mai multă memorie pe nod
→ Procesare-Aproape-Memorie: die-urile logice plasate lângă memorie, nu pe același cip
→ 3D Memory-Logic Stacking: conexiuni verticale care oferă de 2-3 ori mai puțină putere decât HBM...


Limită superioară
Clasament
Favorite
