BullshitBench v2 je venku! Je to jeden z mála benchmarků, kde se modely obecně nezlepšují (kromě Clauda) a kde rozumování nepomáhá. Co je nového: 100 nových otázek podle oboru (programování (40 otázek), medicína (15), právní (15), finance (15), fyzika (15)), 70+ testovaných variant modelů. BullshitBench už má na GitHubu 380 startů – všechny otázky, skripty, odpovědi a soudy tam jsou, tak se na to podívejte. Stručně; DR: - Výsledky replikované - @AnthropicAI nejnovější modely dosahují výjimečných výsledků - @Alibaba_Qwen je další velmi silný výkon - Modely OpenAI a Google se nedaří a nezlepšují se - Domény nevykazují velké rozdíly – míra detekce BS je přibližně stejná napříč všemi doménami - Uvažování má pokud vůbec něco negativního - Novější modely nejsou o moc lepší než starší (kromě Anthropic) Odkazy: - Průzkumník dat: - GitHub: Vřele doporučuji Data Explorer, kde si můžete prostudovat data, otázky a ukázkové odpovědi.