Bu BullshitBench sonucu, Google ve OAI'nin göz alıcı kıyaslamalarına rağmen, Claude'un en iyi günlük sürücü olduğu yaygın sezgisini açıklamada büyük katkı sağlıyor. BullshitBench'i problem çözme kıvertleriyle karşılaştırın. Tüm bu son çözümler doğru çözümleri varsayımlar. Ama gerçek hayatta sorunlar kötü tanımlanır ve hangi soruların sorulmaya değer olduğu ya da cevapları bile olduğu genellikle belirsizdir. Yanlış yoldan sapabilecek bir modele ihtiyacınız var — yani saçmalık diyebilirsin.