Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Le Benchmark AI de 1 million de dollars
Au lieu de demander "est-ce correct ?"
Cela demande : "quelqu'un paierait-il pour cela ?"
Sur 1 million de dollars de tâches d'experts réelles, les meilleurs modèles ne complètent qu'environ 40 à 48 %.
Le meilleur : Claude Opus-4.6.
Le grand écart n'est pas la connaissance, c'est l'exécution.
Les modèles manquent d'étapes, de contraintes et de détails.
L'IA est puissante. Juste pas encore fiable de bout en bout.
Curieux de voir ce chiffre augmenter 📈

Lien vers l'étude :
130
Meilleurs
Classement
Favoris
