Il Benchmark AI da 1 milione di dollari Invece di chiedere "è corretto?" Si chiede: "qualcuno pagherebbe per questo?" Su 1 milione di dollari di compiti reali da esperti, i migliori modelli completano solo circa il 40–48%. Il migliore: Claude Opus-4.6. Il grande divario non è nella conoscenza, ma nell'esecuzione. I modelli mancano passaggi, vincoli e dettagli. L'AI è potente. Solo che non è ancora affidabile end-to-end. Curioso di vedere questo numero crescere 📈
Link allo studio:
126