Wynik BullshitBench w dużym stopniu wyjaśnia powszechną intuicję, że Claude jest najlepszym codziennym narzędziem, mimo oszałamiających wyników Google i OAI. Porównaj BullshitBench z benchmarkami rozwiązywania problemów. Wszystkie z nich zakładają poprawne rozwiązania. Jednak w prawdziwym życiu problemy są słabo zdefiniowane i często nie jest jasne, jakie pytania warto zadawać lub nawet czy mają odpowiedzi. Potrzebujesz modelu, który potrafi skierować cię z niewłaściwej ścieżki — tzn. zawołać bzdury.