Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
¡BullshitBench v2 está fuera! Es uno de los pocos benchmarks en los que los modelos generalmente no mejoran (excepto Claude) y donde el razonamiento no ayuda.
Novedades: 100 preguntas nuevas, por dominio (codificación (40 preguntas), médica (15), legal (15), finanzas (15), física (15)), 70+ variantes de modelo probadas. BullshitBench ya tiene 380 inicios en GitHub: todas las preguntas, scripts, respuestas y juicios están ahí, así que échale un vistazo.
Resumen; DR:
- Resultados replicados - @AnthropicAI modelos más recientes están obteniendo puntuaciones excepcionalmente buenas
- @Alibaba_Qwen es otro intérprete muy fuerte
- Los modelos de OpenAI y Google no están funcionando bien ni mejoran
- Los dominios no muestran mucha diferencia: las tasas de detección de BS son aproximadamente las mismas en todos los dominios
- El razonamiento, si acaso, tiene un efecto negativo
- Los modelos más nuevos no funcionan mucho mejor que los antiguos (excepto Anthropic)
Enlaces:
- Explorador de datos:
- GitHub:
Recomiendo mucho el explorador de datos, donde puedes estudiar los datos, las preguntas y respuestas de ejemplo.
Populares
Ranking
Favoritas
