Результаты BullshitBench во многом объясняют широко распространенное мнение о том, что Claude — лучший ежедневный помощник, несмотря на шокирующие бенчмарки от Google и OAI. Сравните BullshitBench с бенчмарками по решению задач. Все последние предполагают правильные решения. Но в реальной жизни проблемы плохо определены, и часто неясно, какие вопросы стоит задавать или даже имеют ответы. Вам нужна модель, которая может направить вас с неправильного пути — т.е. распознать чушь.