Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
BullshitBench v2 foi lançado! É um dos poucos benchmarks em que os modelos geralmente não estão melhorando (exceto o Claude) e onde o raciocínio não ajuda.
Novidades: 100 novas perguntas, por domínio (codificação (40 Q's), médica (15), jurídica (15), finanças (15), física (15)), 70+ variantes de modelo testadas. O BullshitBench já está com 380 inícios no GitHub – todas as perguntas, scripts, respostas e julgamentos estão lá, então confira.
Resumo; DR:
- Resultados replicados - @AnthropicAI modelos mais recentes estão obtendo pontuações excepcionalmente boas
- @Alibaba_Qwen é outro performer muito forte
- Modelos OpenAI e Google não estão indo bem e não estão melhorando
- Domínios não apresentam muita diferença - as taxas de detecção de BS são aproximadamente as mesmas em todos os domínios
- O raciocínio, se é que tem algum efeito negativo
- Modelos mais novos não fazem muito melhor do que os antigos (exceto o Anthropic)
Links:
- Explorador de dados:
- GitHub:
Recomendo muito o explorador de dados, onde você pode estudar os dados, as perguntas e responder de exemplo.
Melhores
Classificação
Favoritos
