DApp Store | Hub da Web3 para eventos e jogos

Tópicos em alta

Este gráfico está mostrando silenciosamente o novo manual para empresas de programação em IA e ninguém está falando sobre isso. Cognição e Cursor começaram como wrappers rodando em Claude e GPT. Agora veja esse parâmetro. SWE-1,6 da cognição com 51,7%. Compositor do Cursor - 1,5 com 50,8%. Ambos estão a uma distância de ataque de Claude Opus 4.6 com 53,6% e GPT-5.3-Codex com 56,8%. Nenhuma das empresas treinou um modelo de fundação do zero. Ambos adotaram modelos base open-source e aplicaram aprendizado por reforço em ambientes reais de codificação. Swyx, da Cognition, disse isso diretamente no Hacker News: "as qualidades do modelo base são cada vez menos importantes, desde que ele seja bom o suficiente, porque aí o RL e o pós-treinamento assumem o controle e são o ponto principal da diferenciação." Essa é a tese. O modelo base é uma mercadoria. O pipeline de RL treinado no seu harness específico de agentes, nos padrões de uso da sua ferramenta, nas sessões reais do usuário, é a camada defensável. A Cognição treinou o SWE-1.6 em seu harness Cascade com duas ordens de grandeza a mais de cálculo RL do que o SWE-1.5. Cursor treinava o Composer em ambientes IDE ao vivo com edição de arquivos, busca semântica e comandos de terminal. Ambos co-desenharam o modelo e o produto juntos. A matemática do salto conta a história. SWE-1,5 obteve 40,1%. SWE-1,6 pontua 51,7%. Mesmo modelo base. Mesma inferência de 950 tok/s no Cerebras. Toda a melhoria de 11,6 pontos veio de receitas melhores no RL e mais computação. Essa é uma taxa de melhoria mais rápida do que a maioria dos laboratórios de base está obtendo com a escala pré-treinamento. São duas empresas de $10 bilhões+ (Cognição com 10,2 bilhões, Cursor com 29,3 bilhões) convergindo independentemente para a mesma conclusão: você não precisa construir o GPT-5 para competir com o GPT-5 em programação. Você precisa de RL em escala sobre uma base suficientemente boa, co-projetada com a infraestrutura do seu agente. A camada de velocidade também importa. Cognição funciona a 950 tok/s através da Cerebras. O Composer funciona a 250 tok/s. Em fluxos de trabalho agentes, onde o modelo repete dezenas de vezes por tarefa, essa diferença de velocidade de 4x se acumula em experiências de usuário significativamente diferentes. Cognição é velocidade de aposta, mais precisão vence a precisão sozinha. A pergunta que deveria preocupar a OpenAI e a Anthropic é: se duas startups conseguem chegar a menos de 5 pontos dos seus melhores modelos usando RL em bases open-source, o que acontece quando as bases open-source melhoram? Cada melhoria em Llama ou Qwen flui diretamente para o pipeline de Cognição e Cursor. Os laboratórios da fundação estão basicamente subsidiando sua própria concorrência.

Melhores

Classificação

Favoritos