Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Todo modelo de fundação que você já usou tem o mesmo bug. Acabou de ser consertado.
Desde 2015, toda rede profunda foi construída da mesma forma: cada camada faz algum cálculo, soma seu resultado a um total contínuo e o encaminha.
Simples. Mas há um problema: na camada 100, o sinal de qualquer camada individual fica enterrado sob a soma de todo o resto.
Cada nova camada importa cada vez menos.
Ninguém consertou isso porque funcionava bem o suficiente.
A IA do Moonshot acabou de mudar isso. O novo método deles, Attention Residuals, permite que cada camada olhe para todas as camadas anteriores e escolha quais realmente importam no momento.
Em vez de um total cego, você obtém a recuperação seletiva.
A analogia: imagine escrever um ensaio onde cada rascunho é automaticamente fundido em um único documento. No rascunho 50, suas últimas edições estão invisíveis.
O AttnRes permite que você mantenha cada rascunho separado e escolha os que precisar.
O que isso resolve:
1. Camadas mais profundas não ficam mais abafadas
2. O treinamento torna-se mais estável em toda a rede
3. O modelo usa sua própria profundidade de forma mais eficiente
Para tornar prático em escala, eles agrupam camadas em blocos e atendem sobre resumos de blocos em vez de cada camada individualmente.
Sobrecarga na inferência: menos de 2%.
O resultado:
25% menos computação para alcançar o mesmo desempenho. Testado em um modelo de 48B parâmetros. Sustenta todos os tamanhos....
Melhores
Classificação
Favoritos
