1 milyon dolarlık yapay zeka kıyaslaması "Doğru mu?" diye sormak yerine. Bu soru şu: "Biri bunun için para öder mi?" 1 milyon dolarlık gerçek uzman görevleri arasında, üst düzey modeller sadece %40–48'i tamamlayır. En iyisi: Claude Opus-4.6. Büyük boşluk bilgi değil, uygulamadır. Modeller adımları, kısıtlamaları ve detayları kaçırır. Yapay zeka güçlüdür. Henüz uçtan uca güvenilir değil. Bu sayının artmasını 📈 merak ediyorum
Çalışma bağlantısı:
129