Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
🚨 NOTIZIA DELL'ULTIMA ORA: Un ricercatore di Google e un vincitore del premio Turing hanno appena pubblicato un documento che espone la vera crisi nell'IA.
Non è l'addestramento. È l'inferenza. E l'hardware che stiamo usando non è mai stato progettato per questo.
Il documento è di Xiaoyu Ma e David Patterson. Accettato da IEEE Computer, 2026.
Nessun clamore. Nessun lancio di prodotto. Solo un'analisi fredda del perché servire LLM è fondamentalmente rotto a livello hardware.
L'argomento principale è brutale:
→ I FLOPS delle GPU sono cresciuti 80 volte dal 2012 al 2022
→ La larghezza di banda della memoria è cresciuta solo 17 volte nello stesso periodo
→ I costi dell'HBM per GB stanno aumentando, non diminuendo
→ La fase di decodifica è limitata dalla memoria, non dal calcolo
→ Stiamo costruendo l'inferenza su chip progettati per l'addestramento
Ecco la parte più incredibile:
OpenAI ha perso circa 5 miliardi di dollari su 3,7 miliardi di dollari di entrate. Il collo di bottiglia non è la qualità del modello. È il costo di servire ogni singolo token a ogni singolo utente. L'inferenza sta prosciugando queste aziende.
E cinque tendenze stanno rendendo tutto peggio simultaneamente:
→ Modelli MoE come DeepSeek-V3 con 256 esperti che esplodono la memoria
→ Modelli di ragionamento che generano enormi catene di pensiero prima di rispondere
→ Input multimodali (immagine, audio, video) che sovrastano il testo
→ Finestre di contesto lunghe che mettono a dura prova le cache KV
→ Pipeline RAG che iniettano più contesto per richiesta
Le loro quattro proposte di cambiamento hardware:
→ Flash ad alta larghezza di banda: stack da 512 GB con larghezza di banda a livello HBM, 10 volte più memoria per nodo
→ Elaborazione vicino alla memoria: circuiti logici posizionati accanto alla memoria, non sullo stesso chip
→ Impilamento 3D memoria-logica: connessioni verticali che forniscono 2-3 volte meno potenza rispetto all'HBM...


Principali
Ranking
Preferiti
