Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Peter Gostev
Idea para el equipo del Códex 'modo nocturno'. Ahora mismo pongo algunas tareas y quizá las terminen en 30-60 minutos. Pero sigo durmiendo.
Así que si pudiera poner la hora en que deberían estar terminados (por ejemplo, a las 6 de la mañana), podrías darme una inferencia descontada durante ese tiempo, similar al modo por lotes.
71
Actualización BullshitBench v2: Grok 4.2 - gran subida en el ranking - 4.1 estaba clasificado en el puesto 54 y 72 (de 84) y ahora ocupa el puesto 13-16.


Peter Gostev2 mar, 23:29
¡BullshitBench v2 está fuera! Es uno de los pocos benchmarks en los que los modelos generalmente no mejoran (excepto Claude) y donde el razonamiento no ayuda.
Novedades: 100 preguntas nuevas, por dominio (codificación (40 preguntas), médica (15), legal (15), finanzas (15), física (15)), 70+ variantes de modelo probadas. BullshitBench ya tiene 380 inicios en GitHub: todas las preguntas, scripts, respuestas y juicios están ahí, así que échale un vistazo.
Resumen; DR:
- Resultados replicados - @AnthropicAI modelos más recientes están obteniendo puntuaciones excepcionalmente buenas
- @Alibaba_Qwen es otro intérprete muy fuerte
- Los modelos de OpenAI y Google no están funcionando bien ni mejoran
- Los dominios no muestran mucha diferencia: las tasas de detección de BS son aproximadamente las mismas en todos los dominios
- El razonamiento, si acaso, tiene un efecto negativo
- Los modelos más nuevos no funcionan mucho mejor que los antiguos (excepto Anthropic)
Enlaces:
- Explorador de datos:
- GitHub:
Recomiendo mucho el explorador de datos, donde puedes estudiar los datos, las preguntas y respuestas de ejemplo.
127
Algo que no escucho hablar lo suficiente: cómo Microsoft fastidió inútilmente OpenAI y entregó el mercado empresarial a Anthropic.
Microsoft es un gran inversor en OpenAI y decidió hacer que sus modelos sean exclusivos para Azure Cloud. Esto resultó perfecto para Anthropic, pero no para OpenAI y quizá tampoco para Microsoft.
Hacia 2023/2024, OpenAI no solo lideraba en consumo sino también en empresas: fue la primera en introducir cosas como el formato de respuesta JSON y Structured Outputs, el Modo Batch y un montón de otras funciones, todas por delante de Anthropic. Y no estaba claro que los modelos de Anthropic fueran mejores en ese momento.
¿Y cómo ganó Anthropic cuota? En aquel entonces no era Claude Code ni Cursor, sino el simple hecho de que si estás en AWS (alrededor del 35% del mercado), los modelos Claude eran, con diferencia, los mejores modelos a los que podías acceder. Recuerda que a OpenAI no se le permitía estar en AWS.
Los clientes de AWS podían acudir directamente a OpenAI y algunos lo hicieron, pero no subestimes el esfuerzo que esto supone para las grandes empresas. En ese momento trabajaba en una gran empresa heredada y nos llevó unos 4 meses y unos 500.000 dólares solo para acceder a OpenAI, siendo clientes de AWS. Y este proyecto se consideró muy exitoso. La mayoría simplemente no se molesta.
Quizá en 2023 la exclusividad era útil: OpenAI era básicamente el único juego en la ciudad y algunos teóricamente podrían cambiar a Azure. Pero ahora, ¿cuál es la teoría para mantener OpenAI exclusivo de Azure?
Si eres cliente de AWS o GCP (la mitad del mercado), lo más fácil que puedes hacer es simplemente usar la API disponible en tu nube, que aún no puede ser OpenAI. No me imagino una situación en la que un cliente significativo de AWS cambie la nube a Azure para usar únicamente modelos OpenAI.
¿Y para qué? Vale, Azure ganó un par de puntos en cuota de mercado, quizá parte de ello fue gracias a la exclusividad de OpenAI en su día. Ahora, OpenAI está reescribiendo frenéticamente su relación con Microsoft y podría dejar a Microsoft sin propiedad intelectual en el futuro.
Incluso matemáticamente, apostaría a que un mayor crecimiento de OpenAI habría generado más valor para Microsoft gracias a su propiedad de OpenAI en lugar de obtener una pequeña ventaja de Azure hace 3 años.
Espero que Dario le invite una cerveza a Satya.
74
Populares
Ranking
Favoritas