Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
a maneira de interpretar isso é que, após o treinamento pós, os seus pesos estão de certa forma equidistantes de todas as tarefas que viu durante o pré-treinamento (o modelo viu todas as tarefas, então elas o puxaram para perto delas). então, tudo o que este método faz é perturbar os pesos e ver quais perturbações aproximam a rede dos pesos específicos da tarefa. é como um lora realmente barato
e isso também se conecta à observação de que o pós-treinamento não adiciona conhecimento, mas simplesmente esculpe a distribuição do pré-treinamento.

13/03, 23:41
Adicionar simplesmente ruído gaussiano a LLMs (um passo — sem iterações, sem taxa de aprendizado, sem gradientes) e agrupá-los pode alcançar um desempenho comparável ou até melhor do que o GRPO/PPO padrão em tarefas de raciocínio matemático, codificação, escrita e química. Chamamos a este algoritmo RandOpt.
Para verificar que isso não está limitado a modelos específicos, testámo-lo no Qwen, Llama, OLMo3 e VLMs.
O que está por trás disso? Descobrimos que na vizinhança de busca gaussiana em torno de LLMs pré-treinados, especialistas em tarefas diversas estão densamente distribuídos — um regime que chamamos de Bosques Neurais.
Artigo:
Código:
Website:

perturbar pesos é realmente análogo a rollouts aleatórios em alta temperatura. Eu realmente acho que isso pode ser iterativo (como grpo)
perturbar pesos com grande raio -> selecionar melhores desempenhos -> continuar diminuindo o raio
isso *deveria* aumentar a precisão da tarefa
@yule_gan você tentou isso?
30
Top
Classificação
Favoritos
