Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Chamath Palihapitiya
Dios está en los detalles.
21.000 'me gusta' probablemente signifique que todo este discurso sobre los ingresos de los modelos es 100% real y que se desperdicia poco dinero de los clientes en tokens inútiles.
O...

Om Patelhace 9 horas
deja de gastar dinero en Claude Code.
El bot de soporte de Chipotle es gratuito:

26
La siguiente fase del silicio de IA trata de decodificar barato y abundante.
Groq solo era el aperitivo... Este artículo es una guía muy buena.

Chris Laubhace 23 horas
🚨 ÚLTIMA HORA: Un investigador de Google y ganador del premio Turing acaba de publicar un artículo que expone la verdadera crisis de la IA.
No es entrenamiento. Es inferencia. Y el hardware que usamos nunca fue diseñado para ello.
El artículo es de Xiaoyu Ma y David Patterson. Aceptado por IEEE Computer, 2026.
Sin exageraciones. No hay lanzamiento de producto. Solo un resumen claro de por qué servir a LLMs está fundamentalmente roto a nivel de hardware.
El argumento central es brutal:
→ FLOPS de GPU creció 80 veces entre 2012 y 2022
→ El ancho de banda de la memoria creció solo 17 veces en ese mismo periodo
→ los costes de HBM por GB están subiendo, no bajando
→ La fase de decodificación está limitada por la memoria, no por el cálculo
→ Estamos construyendo inferencia sobre chips diseñados para entrenamiento
Aquí viene la parte más loca:
OpenAI perdió aproximadamente 5.000 millones de dólares de 3.700 millones de dólares en ingresos. El cuello de botella no es la calidad del modelo. Es el coste de servir cada token a cada usuario. La inferencia está dejando a estas empresas sin problemas.
Y cinco tendencias lo están empeorando simultáneamente:
→ modelos MoE como DeepSeek-V3 con 256 expertos explotando memoria
→ Modelos de razonamiento que generan cadenas de pensamiento masivas antes de responder
→ Entradas multimodales (imagen, audio, vídeo) que eclipsan el texto
→ Ventanas de contexto largo que sobrecargan las cachés KV
→ las canalizaciones RAG que inyectan más contexto por solicitud
Sus cuatro cambios de hardware propuestos:
→ Flash de alto ancho de banda: 512GB pilas a nivel HBM, 10 veces más memoria por nodo
→ Procesamiento-Cerca-Memoria: los chips lógicos se colocan junto a la memoria, no en el mismo chip
→ Apilamiento 3D de memoria-lógica: conexiones verticales que ofrecen entre 2 y 3 veces menos potencia que HBM
→ Interconexión de baja latencia: menos saltos, cálculo en red, búferes de paquetes SRAM
Las empresas que probaron chips solo SRAM como Cerebras y Groq ya fallaron y tuvieron que volver a añadir DRAM.
Este periódico no vende ningún producto. Mapea todo el cuello de botella del hardware y dice: la industria está resolviendo el problema equivocado.
Paper se lanzó en enero de 2026. Enlace en el primer comentario 👇


68
Creo que hay algo importante aquí que merece la pena averiguar:
1) la mayoría de los modelos se sobreajustan a las evaluaciones. Dicho esto, necesitamos algunas evaluaciones para indicar a un modelo si son buenos detectores de tonterías antes de gastar un montón de dinero en devolver tonterías
2) Debe haber conciencia de la adulación y, en general, ser complaciente no siempre es lo mejor
3) Creo que usar una mezcla de LLMs y humanos para juzgar sería valioso

Peter Gostevhace 16 horas
Actualización BullshitBench v2: Grok 4.2 - gran subida en el ranking - 4.1 estaba clasificado en el puesto 54 y 72 (de 84) y ahora ocupa el puesto 13-16.

36
Populares
Ranking
Favoritas
