1/ Tenemos una crisis de escalado de hardware. Los núcleos tensor de GPU están duplicando su velocidad, pero el ancho de banda de memoria y las unidades matemáticas exponenciales están estancadas. Tus núcleos de atención están inactivos mientras esperan que terminen los cálculos básicos. 🧵