El Benchmark de IA de 1 millón de dólares En lugar de preguntar "¿es correcto?" Esto pregunta: "¿alguien pagaría por ello?" A través de 1 millón de dólares en tareas reales de expertos, los mejores modelos completan solo alrededor del 40–48%. El mejor: Claude Opus-4.6. La gran brecha no es el conocimiento, es la ejecución. Los modelos omiten pasos, restricciones y detalles. La IA es poderosa. Simplemente no es confiable de extremo a extremo todavía. Curioso por ver este número crecer 📈
Enlace al estudio:
144