Questo risultato di BullshitBench spiega in larga misura l'intuizione diffusa che Claude sia il miglior strumento quotidiano, nonostante i benchmark sbalorditivi di Google e OAI. Contrasta BullshitBench con i benchmark di problem-solving. Tutti questi ultimi presuppongono soluzioni corrette. Ma nella vita reale, i problemi sono mal definiti e spesso non è chiaro quali domande valga la pena porre o addirittura se abbiano risposte. Hai bisogno di un modello che possa guidarti fuori dalla strada sbagliata — cioè, chiamare bullshit.