Detta BullshitBench-resultat förklarar till stor del den utbredda intuitionen att Claude är den bästa dagliga bilen, trots Googles och OAI:s häpnadsväckande benchmarks. Jämför BullshitBench med problemlösningsbenchmarks. Alla dessa förutsätter korrekta lösningar. Men i verkliga livet är problemen dåligt definierade och det är ofta oklart vilka frågor som är värda att ställa eller ens har svar. Du behöver en modell som kan leda dig av fel väg – alltså kalla det skitsnack.