İnsanlar bu grafiği hızla abartı olarak yanlış yorumluyor İşte olanların açık bir açıklaması: METR, yazılım görevlerinin bir kıyaslamasını oluşturur (karmaşık sistemleri hata ayıklama, ML modellerini eğitmek veya güvenlik açıklarını bulmak) Her görevin ne kadar sürede yetenekli bir insan uzmanının tamamlaması gerektiğini ölçüyor, ardından aynı görevlerde yapay zeka ajanlarını test ediyorlar. "Zaman ufku" özet bir istatistiktir: belirli bir yapay zekanın %50 zamanında başarılı olduğu görev süresi. 2 saatlik zaman ufkusuna sahip bir model, insan uzmanın 2 saat sürecek görevlerin yarısını tamamlar. METR az önce Claude Opus 4.6'nın %50 zaman ufukuna sahip olduğunu ~14.5 saat olarak bildirdi, ki bu elbette inanılmaz etkileyici olurdu... ama METR bize dikkatli olmamızı söylüyor! İstatistiksel bir sorun var. Üst sınırları sabitleyecek kadar zor görev kalmamış ve sınır modelleri artık görev paketindeki neredeyse her şeyde başarılı oluyor. Yani, sonuçlardaki küçük rastgele varyasyonlar tahmini dramatik şekilde değiştiriyor: %95 güven aralığı 6 saatten 98 saate kadar değişiyor ki bu da herkesin sonuca ulaşması için açıkça güvenilmez bir aralık. METR de bu seviyede ölçüm yapmak için yeni yöntemler üzerinde çalışıyor, bu yüzden beklentileri biraz azalt :)