Dieses BullshitBench-Ergebnis erklärt gut die weit verbreitete Intuition, dass Claude der beste tägliche Begleiter ist, trotz der beeindruckenden Benchmarks von Google und OAI. Stellen Sie BullshitBench den problemlösenden Benchmarks gegenüber. Letztere setzen alle korrekte Lösungen voraus. Aber im echten Leben sind Probleme schlecht definiert und es ist oft unklar, welche Fragen es wert sind, gestellt zu werden oder sogar Antworten zu haben. Sie benötigen ein Modell, das Sie vom falschen Weg abbringen kann — d.h. Bullshit erkennen.