Tienda de dapps | Hub de Web3 para eventos y juegos

Temas en tendencia

Este gráfico te muestra discretamente el nuevo manual para las empresas de programación de IA y nadie habla de ello. Cognition y Cursor empezaron como envoltorios ejecutándose en Claude y GPT. Ahora mira este punto de referencia. SWE-1,6 de Cognition con un 51,7%. Compositor de Cursor-1,5 al 50,8%. Ambos están a distancia de ataque de Claude Opus 4.6 con 53,6% y GPT-5.3-Codex con 56,8%. Ninguna de las dos empresas entrenó un modelo de base desde cero. Ambos adoptaron modelos base de código abierto y aplicaron aprendizaje por refuerzo en entornos reales de codificación. Swyx de Cognition lo dijo directamente en Hacker News: "cada vez es menos importante la importancia de las cualidades del modelo base mientras sea lo suficientemente bueno, porque entonces el RL y el post-entrenamiento toman el control y son el objetivo principal de la diferenciación." Esa es la tesis. El modelo base es una mercancía. La cadena de aprendizaje real entrenada con tu propio control de agentes, tus patrones de uso de herramientas, tus sesiones reales de usuario, es la capa defendible. Cognición entrenó a SWE-1.6 con su arnés Cascade con dos órdenes de magnitud más de cálculo RL que SWE-1.5. Cursor entrenaba Composer dentro de entornos IDE reales con edición de archivos, búsqueda semántica y comandos de terminal. Ambos co-diseñaron el modelo y el producto juntos. Las matemáticas del salto cuentan la historia. SWE-1.5 obtuvo un 40,1%. SWE-1,6 obtiene un 51,7%. Mismo modelo base. Misma inferencia de 950 tok/s en Cerebras. Toda la mejora de 11,6 puntos vino de mejores recetas de RL y más cálculo. Es una mejora más rápida que la que la mayoría de los laboratorios de base obtienen con la escala previa al entrenamiento. Son dos empresas de $10.000 millones (Cognition con 10.200 millones, Cursor con 29.300 millones) convergiendo independientemente en la misma conclusión: no necesitas construir GPT-5 para competir con GPT-5 en codificación. Necesitas RL a gran escala sobre una base suficientemente buena, co-diseñada con la infraestructura de tu agente. La capa de velocidad también importa. Cognición funciona a 950 tok/s a través de Cerebras. El compositor funciona a 250 tok/s. En flujos de trabajo agentivos donde el modelo se repite decenas de veces por tarea, esa diferencia de velocidad de 4x se acumula en experiencias de usuario significativamente diferentes. La cognición es la velocidad de apuesta más la precisión vence a la precisión por sí sola. La pregunta que debería preocupar a OpenAI y Anthropic es: si dos startups pueden acercarse a menos de 5 puntos de tus mejores modelos usando RL en bases de código abierto, ¿qué ocurre cuando las bases de código abierto mejoran? Cada mejora en Llama o Qwen fluye directamente en la cadena de Cognición y Cursor. Los laboratorios de fundación básicamente están subvencionando a su propia competencia.

Populares

Ranking

Favoritas