El Benchmark de IA de 1 millón de dólares En lugar de preguntar "¿es correcto?" Esto pregunta: "¿alguien pagaría por ello?" En un millón de dólares en tareas reales de expertos, las top models solo completan alrededor del 40–48%. El mejor: Claude Opus-4.6. La gran diferencia no es conocimiento, es ejecución. Los modelos no tienen pasos, restricciones y detalles. La IA es poderosa. Simplemente no es fiable de extremo a extremo todavía. Tengo curiosidad por ver crecer 📈 este número
Enlace al estudio:
193