AI-benchmarken til 1 million dollar I stedet for å spørre «er det riktig?» Dette spør: «Ville noen betalt for det?» På tvers av 1 million dollar i reelle ekspertoppgaver fullfører toppmodellene bare rundt 40–48 %. Den beste: Claude Opus-4.6. Stort gap er ikke kunnskap, det er gjennomføring. Modeller overser trinn, begrensninger og detaljer. AI er kraftig. Bare ikke pålitelig fra ende til ende ennå. Nysgjerrig på å se dette tallet vokse 📈
Lenke til studien:
126