Das Lustige ist, dass wir einen Benchmark haben, der die im Tweet aufgestellten Behauptungen widerlegt. Claude gehört zu den schlechtesten Verteidigern, wenn es um "echte" Probleme geht; BullshitBench sind Spielzeugfragen.