Todo modelo de fundação que você já usou tem o mesmo bug. Acabou de ser consertado. Desde 2015, toda rede profunda foi construída da mesma forma: cada camada faz algum cálculo, soma seu resultado a um total contínuo e o encaminha. Simples. Mas há um problema: na camada 100, o sinal de qualquer camada individual fica enterrado sob a soma de todo o resto. Cada nova camada importa cada vez menos. Ninguém consertou isso porque funcionava bem o suficiente. A IA do Moonshot acabou de mudar isso. O novo método deles, Attention Residuals, permite que cada camada olhe para todas as camadas anteriores e escolha quais realmente importam no momento. Em vez de um total cego, você obtém a recuperação seletiva. A analogia: imagine escrever um ensaio onde cada rascunho é automaticamente fundido em um único documento. No rascunho 50, suas últimas edições estão invisíveis. O AttnRes permite que você mantenha cada rascunho separado e escolha os que precisar. O que isso resolve: 1. Camadas mais profundas não ficam mais abafadas 2. O treinamento torna-se mais estável em toda a rede 3. O modelo usa sua própria profundidade de forma mais eficiente Para tornar prático em escala, eles agrupam camadas em blocos e atendem sobre resumos de blocos em vez de cada camada individualmente. Sobrecarga na inferência: menos de 2%. O resultado: 25% menos computação para alcançar o mesmo desempenho. Testado em um modelo de 48B parâmetros. Sustenta todos os tamanhos....