¡BullshitBench v2 está fuera! Es uno de los pocos benchmarks en los que los modelos generalmente no mejoran (excepto Claude) y donde el razonamiento no ayuda. Novedades: 100 preguntas nuevas, por dominio (codificación (40 preguntas), médica (15), legal (15), finanzas (15), física (15)), 70+ variantes de modelo probadas. BullshitBench ya tiene 380 inicios en GitHub: todas las preguntas, scripts, respuestas y juicios están ahí, así que échale un vistazo. Resumen; DR: - Resultados replicados - @AnthropicAI modelos más recientes están obteniendo puntuaciones excepcionalmente buenas - @Alibaba_Qwen es otro intérprete muy fuerte - Los modelos de OpenAI y Google no están funcionando bien ni mejoran - Los dominios no muestran mucha diferencia: las tasas de detección de BS son aproximadamente las mismas en todos los dominios - El razonamiento, si acaso, tiene un efecto negativo - Los modelos más nuevos no funcionan mucho mejor que los antiguos (excepto Anthropic) Enlaces: - Explorador de datos: - GitHub: Recomiendo mucho el explorador de datos, donde puedes estudiar los datos, las preguntas y respuestas de ejemplo.