DApp Store | Pusat Web3 untuk Event & Game

Topik trending

Tolok Ukur AI $1 juta Alih-alih bertanya "apakah itu benar?" Ini bertanya: "apakah seseorang akan membayarnya?" Di seluruh $1 juta tugas ahli nyata, model teratas hanya menyelesaikan sekitar 40-48%. Yang terbaik: Claude Opus-4.6. Kesenjangan besar bukanlah pengetahuan, melainkan eksekusi. Model melewatkan langkah, batasan, dan detail. AI sangat kuat. Hanya saja belum dapat diandalkan secara end-to-end. Penasaran melihat angka ini tumbuh 📈

Tautan ke studi:

124

Teratas

Peringkat

Favorit