Ce graphique vous montre discrètement le nouveau manuel des entreprises de codage AI et personne n'en parle. Cognition et Cursor ont toutes deux commencé comme des wrappers fonctionnant sur Claude et GPT. Maintenant, regardez cette référence. SWE-1.6 de Cognition à 51,7 %. Composer-1.5 de Cursor à 50,8 %. Les deux sont à portée de main de Claude Opus 4.6 à 53,6 % et GPT-5.3-Codex à 56,8 %. Aucune des deux entreprises n'a formé un modèle de base depuis zéro. Les deux ont pris des modèles de base open-source et ont appliqué l'apprentissage par renforcement dans de véritables environnements de codage. Swyx de Cognition l'a dit directement sur Hacker News : "il est de moins en moins important de connaître les qualités du modèle de base tant qu'il est suffisamment bon, car ensuite l'apprentissage par renforcement et le post-entraînement prennent le relais et constituent tout le point de différenciation." C'est la thèse. Le modèle de base est une marchandise. Le pipeline d'apprentissage par renforcement formé sur votre harnais d'agent spécifique, vos modèles d'utilisation d'outils, vos sessions utilisateur réelles est la couche défendable. Cognition a formé SWE-1.6 sur leur harnais Cascade avec deux ordres de grandeur de plus de calcul RL que SWE-1.5. Cursor a formé Composer dans des environnements IDE en direct avec édition de fichiers, recherche sémantique et commandes terminales. Les deux ont co-conçu le modèle et le produit ensemble. Les mathématiques sur le saut racontent l'histoire. SWE-1.5 a obtenu 40,1 %. SWE-1.6 obtient 51,7 %. Même modèle de base. Même 950 tok/s d'inférence sur Cerebras. L'ensemble de l'amélioration de 11,6 points provient de meilleures recettes RL et de plus de calcul. C'est un taux d'amélioration plus rapide que la plupart des laboratoires de base n'obtiennent grâce à l'échelle de pré-entraînement. Ce sont deux entreprises de plus de 10 milliards de dollars (Cognition à 10,2 milliards de dollars, Cursor à 29,3 milliards de dollars) convergeant indépendamment vers la même conclusion : vous n'avez pas besoin de construire GPT-5 pour rivaliser avec GPT-5 en matière de codage. Vous avez besoin de RL à grande échelle sur un bon modèle de base, co-conçu avec votre infrastructure d'agent. La couche de vitesse compte aussi. Cognition fonctionne à 950 tok/s via Cerebras. Composer fonctionne à 250 tok/s. Dans des flux de travail agentiques où le modèle boucle des dizaines de fois par tâche, cet écart de vitesse de 4x se traduit par des expériences utilisateur significativement différentes. Cognition parie que la vitesse plus la précision bat la précision seule. La question qui devrait inquiéter OpenAI et Anthropic : si deux startups peuvent se rapprocher à 5 points de vos meilleurs modèles en utilisant RL sur des bases open-source, que se passe-t-il lorsque les bases open-source s'améliorent ? Chaque amélioration de Llama ou Qwen s'écoule directement dans le pipeline de Cognition et Cursor. Les laboratoires de base subventionnent essentiellement leur propre concurrence.