DApp Store | Hub da Web3 para eventos e jogos

Tópicos em alta

Um modelo forte pode piorar em aprender coisas difíceis à medida que ganha confiança... Porque as respostas erradas são tão baixas que os gradientes basicamente desaparecem O WMSS inverte o ciclo: você treina o modelo forte contra seu próprio ponto de controle anterior e mais fraco, não apenas contra suas previsões atuais O checkpoint fraco ainda atribui probabilidade não trivial a respostas plausíveis, mas erradas... O treinamento nessa distribuição mais suave força o modelo forte a continuar separando o correto do quase-correto, em vez de polir o que já acredita O artigo relata ganhos significativos em matemática + programação, com elevações maiores em conjuntos mais difíceis... Mas foi testado em torno de 4b a 8b parámetros, não na escala de fronteira (então não estou tratando isso como estabelecido) A implicação pouco discutida: todo laboratório sério já tem um cemitério de pontos intermediários de testes anteriores... Se o aprendizado conduzido por fracos se mantiver em 70B+, os checkpoints "desperdiçados" se tornam um recurso de treinamento que você já está usando Modelos fortes se estabilizam quando param de duvidar de si mesmos... Uma maneira prática de seguir pode ser fazê-los discutir com seu eu 👀 do passado Link para o artigo: arxiv. org/abs/2602.08222

Melhores

Classificação

Favoritos