Tolok Ukur AI $1 juta Alih-alih bertanya "apakah itu benar?" Ini bertanya: "apakah seseorang akan membayarnya?" Di seluruh $1 juta tugas ahli nyata, model teratas hanya menyelesaikan sekitar 40-48%. Yang terbaik: Claude Opus-4.6. Kesenjangan besar bukanlah pengetahuan, melainkan eksekusi. Model melewatkan langkah, batasan, dan detail. AI sangat kuat. Hanya saja belum dapat diandalkan secara end-to-end. Penasaran melihat angka ini tumbuh 📈
Tautan ke studi:
124