Le Benchmark AI de 1 million de dollars Au lieu de demander "est-ce correct ?" Cela demande : "quelqu'un paierait-il pour cela ?" Sur 1 million de dollars de tâches d'experts réelles, les meilleurs modèles ne complètent qu'environ 40 à 48 %. Le meilleur : Claude Opus-4.6. Le grand écart n'est pas la connaissance, c'est l'exécution. Les modèles manquent d'étapes, de contraintes et de détails. L'IA est puissante. Juste pas encore fiable de bout en bout. Curieux de voir ce chiffre augmenter 📈
Lien vers l'étude :
130