1/ Abbiamo una crisi di scalabilità hardware. I core tensor GPU stanno raddoppiando in velocità, ma la larghezza di banda della memoria e le unità matematiche esponenziali stanno stagnando. I tuoi kernel di attenzione sono inattivi mentre aspettano che i calcoli di base finiscano. 🧵