Benchmark AI za 1 milion dolarů Místo otázky "je to správné?" Ptá se: "Zaplatí za to někdo?" Na skutečných odborných projektech za 1 milion dolarů dokončí špičkové modely jen asi 40–48 %. Nejlepší: Claude Opus-4.6. Velká mezera není ve znalostech, ale v provedení. Modely opomíjejí kroky, omezení a detaily. AI je silná. Jen zatím není spolehlivý od začátku do konce. Jsem zvědavý, jak toto číslo poroste 📈
Odkaz na studii:
127