Het grappige is dat we een benchmark hebben die de beweringen in de tweet weerlegt. Claude is een van de slechtste verdedigers als het gaat om "echte" problemen; BullshitBench zijn speelgoedvragen.