🚨 ÚLTIMA HORA: Un investigador de Google y ganador del premio Turing acaba de publicar un artículo que expone la verdadera crisis de la IA. No es entrenamiento. Es inferencia. Y el hardware que usamos nunca fue diseñado para ello. El artículo es de Xiaoyu Ma y David Patterson. Aceptado por IEEE Computer, 2026. Sin exageraciones. No hay lanzamiento de producto. Solo un resumen claro de por qué servir a LLMs está fundamentalmente roto a nivel de hardware. El argumento central es brutal: → FLOPS de GPU creció 80 veces entre 2012 y 2022 → El ancho de banda de la memoria creció solo 17 veces en ese mismo periodo → los costes de HBM por GB están subiendo, no bajando → La fase de decodificación está limitada por la memoria, no por el cálculo → Estamos construyendo inferencia sobre chips diseñados para entrenamiento Aquí viene la parte más loca: OpenAI perdió aproximadamente 5.000 millones de dólares de 3.700 millones de dólares en ingresos. El cuello de botella no es la calidad del modelo. Es el coste de servir cada token a cada usuario. La inferencia está dejando a estas empresas sin problemas. Y cinco tendencias lo están empeorando simultáneamente: → modelos MoE como DeepSeek-V3 con 256 expertos explotando memoria → Modelos de razonamiento que generan cadenas de pensamiento masivas antes de responder → Entradas multimodales (imagen, audio, vídeo) que eclipsan el texto → Ventanas de contexto largo que sobrecargan las cachés KV → las canalizaciones RAG que inyectan más contexto por solicitud Sus cuatro cambios de hardware propuestos: → Flash de alto ancho de banda: 512GB pilas a nivel HBM, 10 veces más memoria por nodo → Procesamiento-Cerca-Memoria: los chips lógicos se colocan junto a la memoria, no en el mismo chip → Apilamiento 3D de memoria-lógica: conexiones verticales que ofrecen entre 2 y 3 veces menos potencia que HBM...