Цей результат BullshitBench значною мірою пояснює поширену інтуїцію, що Claude — найкращий щоденний водій, незважаючи на вражаючі бенчмарки Google та OAI. Порівняйте BullshitBench із бенчмарками розв'язання проблем. Усі останні передбачають правильні розв'язки. Але в реальному житті проблеми погано визначені, і часто незрозуміло, які питання варто ставити або навіть мають відповіді. Вам потрібна модель, яка зможе звести вас з неправильного шляху — тобто назвати це нісенітницею.