Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Um modelo forte pode piorar em aprender coisas difíceis à medida que ganha confiança... Porque as respostas erradas são tão baixas que os gradientes basicamente desaparecem
O WMSS inverte o ciclo: você treina o modelo forte contra seu próprio ponto de controle anterior e mais fraco, não apenas contra suas previsões atuais
O checkpoint fraco ainda atribui probabilidade não trivial a respostas plausíveis, mas erradas... O treinamento nessa distribuição mais suave força o modelo forte a continuar separando o correto do quase-correto, em vez de polir o que já acredita
O artigo relata ganhos significativos em matemática + programação, com elevações maiores em conjuntos mais difíceis... Mas foi testado em torno de 4b a 8b parámetros, não na escala de fronteira (então não estou tratando isso como estabelecido)
A implicação pouco discutida: todo laboratório sério já tem um cemitério de pontos intermediários de testes anteriores... Se o aprendizado conduzido por fracos se mantiver em 70B+, os checkpoints "desperdiçados" se tornam um recurso de treinamento que você já está usando
Modelos fortes se estabilizam quando param de duvidar de si mesmos... Uma maneira prática de seguir pode ser fazê-los discutir com seu eu 👀 do passado
Link para o artigo: arxiv. org/abs/2602.08222

Melhores
Classificação
Favoritos
