um modelo forte pode piorar na aprendizagem de coisas difíceis à medida que se torna mais confiante.. porque suas respostas erradas são empurradas tão baixo que os gradientes basicamente desaparecem wmss inverte o ciclo: você treina o modelo forte contra seu próprio checkpoint anterior, mais fraco, não apenas contra suas previsões atuais o checkpoint fraco ainda atribui uma probabilidade não trivial a respostas plausíveis, mas erradas.. treinar nessa distribuição mais suave força o modelo forte a continuar separando o correto do quase-correto, em vez de polir o que já acredita o artigo relata ganhos significativos em matemática + programação, com aumentos maiores em conjuntos mais difíceis.. mas foi testado em torno de 4b a 8b de parâmetros, não em escala de fronteira (então não estou tratando isso como resolvido) a implicação pouco discutida: todo laboratório sério já tem um cemitério de checkpoints intermediários de execuções passadas.. se a aprendizagem impulsionada por fracos se mantiver em 70b+, os checkpoints "desperdiçados" se tornam um recurso de treinamento que você já possui modelos fortes estagnam quando param de duvidar de si mesmos.. uma maneira prática de avançar pode ser fazê-los discutir com seu eu passado 👀 link para o artigo: arxiv. org/abs/2602.08222