un modèle puissant peut devenir moins efficace pour apprendre des choses difficiles à mesure qu'il gagne en confiance... car ses réponses incorrectes sont poussées si bas que les gradients disparaissent pratiquement wmss inverse la boucle : vous entraînez le modèle puissant contre son propre point de contrôle antérieur, plus faible, et pas seulement contre ses prédictions actuelles le point de contrôle faible attribue toujours une probabilité non triviale à des réponses plausibles mais incorrectes... s'entraîner sur cette distribution plus douce force le modèle puissant à continuer de séparer le correct de l'à-peu-près-correct, au lieu de peaufiner ce qu'il croit déjà l'article rapporte des gains significatifs en mathématiques et en codage, avec des augmentations plus importantes sur des ensembles plus difficiles... mais il a été testé autour de 4b à 8b de paramètres, pas à l'échelle de la frontière (donc je ne considère pas cela comme réglé) l'implication peu discutée : chaque laboratoire sérieux a déjà un cimetière de points de contrôle intermédiaires issus de courses passées... si l'apprentissage dirigé par le faible tient à 70b+, les points de contrôle "gaspillés" deviennent une ressource d'entraînement sur laquelle vous êtes déjà assis les modèles puissants stagnent lorsqu'ils cessent de douter d'eux-mêmes... une façon pratique d'avancer pourrait être de les faire argumenter avec leur moi passé 👀 lien vers l'article : arxiv. org/abs/2602.08222