De $1 miljoen AI Benchmark In plaats van te vragen "is het correct?" Vraagt dit: "zou iemand ervoor betalen?" Bij $1 miljoen aan echte expert taken, voltooien topmodellen slechts ongeveer 40–48%. Beste: Claude Opus-4.6. De grote kloof is niet kennis, het is uitvoering. Modellen missen stappen, beperkingen en details. AI is krachtig. Gewoon nog niet betrouwbaar van begin tot eind. Benieuwd om te zien dat dit nummer groeit 📈
Link naar studie:
169