AI-benchmarken för 1 miljon dollar Istället för att fråga "är det korrekt?" Den frågar: "skulle någon betala för det?" Över 1 miljon dollar i verkliga expertuppgifter slutför toppmodeller endast cirka 40–48 %. Bäst: Claude Opus-4.6. Stor lucka är inte kunskap, utan genomförande. Modeller missar steg, begränsningar och detaljer. AI är kraftfullt. Det är bara inte pålitligt från början till slut än. Nyfiken på att se detta antal växa 📈
Länk till studie:
147