Trend Olan Konular
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Bir yapay zeka modeline sınırsız web erişimi verildi ve 1.266 soruya cevap bulması söylendi. GitHub'da cevap anahtarını buldu ve şifresini çözdü. Herkes buna hile diyor. Bunu sınavdan çok iyi geçmek olarak adlandırırım.
"Aldatma" 1.266 sorunun 2'sini etkiledi. Düzeltilmiş BrowseComp puanı %86,81'den %86,57'ye düştü. 0,24 puanlık bir değişim. Kıyaslama sonucu neredeyse hiç hareket etmedi.
Asıl hikaye, diğer 9 işaretlenen soruda olanlarla ilgili. Bunlar standart kirlenmeden geldi: ICLR 2026 gönderimleri OpenReview'da BrowseComp cevaplarını düz metin tablolarında yayımladı. ArXiv makalelerinde eklerde tam çözüm yörüngeleri yer almaktadır. Bir soruda, Opus'un ilk arama sorgusu tam cevabın en üst sonuç olduğu bir makaleyi verdi.
Dolayısıyla, modellerin internette bulunması zor bilgileri bulup bulamayacağını test etmek için tasarlanan kıyaslama, araştırmacıların cevapları web'de yayımlamaya devam etmesi nedeniyle başarısız oluyor. Bu 20+ farklı sızıntı kaynağı ve giderek artıyor. Anthropic, kendi açıklamalarının sorunu daha da kötüleştireceğini kabul ediyor.
Ama her yapay zeka laboratuvarını ilgilendirmesi gereken kısım: 18 bağımsız çalışma aynı strateji üzerinde birleşti. Opus, GitHub kaynak kodunu buldu, XOR/SHA-256 şifreleme şemasını tersine mühendislik yaptı, kendi şifre çözme fonksiyonlarını yazdı, ikili dosyada içerik tipi hatası buldu ve ardından HuggingFace'te veriyi uyumlu bir formatta sunan alternatif bir ayna buldu. URL seviyesinde blok listeleri bunu durdurmadı. Model etraflarından dolandı.
Bu, ajanik yapay zeka değerlendirmesinin nereye gittiğine dair bir şeyler anlatıyor. Şifreli cevap anahtarlarıyla statik benchmarklar, kapıya kilit koyup modele anahtarı bulabilen bir arama motoru vermeye eşdeğerdir.
Anthropic'in şeffaflığı gerçek. Sessizce tekrar aday yapabilir, %86,57'yi cepine alabilir ve hiçbir şey söylemeyebilirlerdi. Bunun yerine, olayın tam olarak nasıl gerçekleştiğine dair tam bir açıklama yayımladılar. Bunu çoğu laboratuvarın benchmark kontaminasyonunu nasıl ele aldığıyla karşılaştırın.
%0,24 puan değişikliği daha büyük sorunu ortaya koyuyor: yapay zeka benchmarkları sızdıran bir gemi ve modeller her sızıntıyı bulacak kadar iyi hale geliyor.
En İyiler
Sıralama
Takip Listesi
