DApp Store | Web3 Hub voor evenementen en spelletjes

Populaire onderwerpen

BullshitBench v2 is uit! Het is een van de weinige benchmarks waar modellen over het algemeen niet beter worden (behalve Claude) en waar redeneren niet helpt. Wat is nieuw: 100 nieuwe vragen, per domein (coderen (40 Vragen), medisch (15), juridisch (15), financiën (15), natuurkunde (15)), 70+ modelvarianten getest. BullshitBench heeft al 380 starts op GitHub - alle vragen, scripts, antwoorden en oordelen zijn daar, dus kijk er eens naar. TL;DR: - Resultaten gerepliceerd - @AnthropicAI nieuwste modellen scoren uitzonderlijk goed - @Alibaba_Qwen is een andere zeer sterke performer - OpenAI en Google-modellen presteren niet goed en verbeteren niet - Domeinen tonen niet veel verschil - de percentages van BS-detectie zijn ongeveer hetzelfde in alle domeinen - Redeneren heeft, als het al iets is, een negatief effect - Nieuwere modellen doen niet veel beter dan oudere (behalve Anthropic) Links: - Data-explorer: - GitHub: Zeer aan te raden is de data-explorer waar je de data en de vragen & voorbeeldantwoorden kunt bestuderen.

Boven

Positie

Favorieten