Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Este gráfico está mostrando silenciosamente o novo manual para empresas de programação em IA e ninguém está falando sobre isso.
Cognição e Cursor começaram como wrappers rodando em Claude e GPT. Agora veja esse parâmetro. SWE-1,6 da cognição com 51,7%. Compositor do Cursor - 1,5 com 50,8%. Ambos estão a uma distância de ataque de Claude Opus 4.6 com 53,6% e GPT-5.3-Codex com 56,8%.
Nenhuma das empresas treinou um modelo de fundação do zero. Ambos adotaram modelos base open-source e aplicaram aprendizado por reforço em ambientes reais de codificação. Swyx, da Cognition, disse isso diretamente no Hacker News: "as qualidades do modelo base são cada vez menos importantes, desde que ele seja bom o suficiente, porque aí o RL e o pós-treinamento assumem o controle e são o ponto principal da diferenciação."
Essa é a tese. O modelo base é uma mercadoria. O pipeline de RL treinado no seu harness específico de agentes, nos padrões de uso da sua ferramenta, nas sessões reais do usuário, é a camada defensável. A Cognição treinou o SWE-1.6 em seu harness Cascade com duas ordens de grandeza a mais de cálculo RL do que o SWE-1.5. Cursor treinava o Composer em ambientes IDE ao vivo com edição de arquivos, busca semântica e comandos de terminal. Ambos co-desenharam o modelo e o produto juntos.
A matemática do salto conta a história. SWE-1,5 obteve 40,1%. SWE-1,6 pontua 51,7%. Mesmo modelo base. Mesma inferência de 950 tok/s no Cerebras. Toda a melhoria de 11,6 pontos veio de receitas melhores no RL e mais computação. Essa é uma taxa de melhoria mais rápida do que a maioria dos laboratórios de base está obtendo com a escala pré-treinamento.
São duas empresas de $10 bilhões+ (Cognição com 10,2 bilhões, Cursor com 29,3 bilhões) convergindo independentemente para a mesma conclusão: você não precisa construir o GPT-5 para competir com o GPT-5 em programação. Você precisa de RL em escala sobre uma base suficientemente boa, co-projetada com a infraestrutura do seu agente.
A camada de velocidade também importa. Cognição funciona a 950 tok/s através da Cerebras. O Composer funciona a 250 tok/s. Em fluxos de trabalho agentes, onde o modelo repete dezenas de vezes por tarefa, essa diferença de velocidade de 4x se acumula em experiências de usuário significativamente diferentes. Cognição é velocidade de aposta, mais precisão vence a precisão sozinha.
A pergunta que deveria preocupar a OpenAI e a Anthropic é: se duas startups conseguem chegar a menos de 5 pontos dos seus melhores modelos usando RL em bases open-source, o que acontece quando as bases open-source melhoram? Cada melhoria em Llama ou Qwen flui diretamente para o pipeline de Cognição e Cursor. Os laboratórios da fundação estão basicamente subsidiando sua própria concorrência.
Melhores
Classificação
Favoritos
