DApp Store | Hub da Web3 para eventos e jogos

Tópicos em alta

Com o tsunami de demanda por tokens que se aproxima, há oportunidades significativas para orquestrar a memória+computação subjacente *exatamente da perfeição* para os LLMs. A restrição fundamental e não óbvia é que, devido ao processo de fabricação do chip, você obtém dois pools de memória completamente distintos (de implementações físicas diferentes também): 1) SRAM no chip, que fica imediatamente ao lado das unidades de computação, que é incrivelmente rápida, mas de capacidade muito baixa, e 2) DRAM off-chip que tem capacidade extremamente alta, mas cujo conteúdo só pode ser sugado por um canudo longo. Além disso, há muitos detalhes da arquitetura (por exemplo, arrays sistólicos), números, etc. O design do substrato físico ótimo e depois a orquestração de memória+computação nos fluxos de trabalho de maior volume dos LLMs (inferência prepreenchimento/decodificação, treinamento/ajuste fino, etc.) com o melhor throughput/latência/$, é provavelmente o quebra-cabeça intelectual mais interessante de hoje, com as maiores recompensas (\cite 4,6T do NVDA). Tudo isso para conseguir muitos tokens, rápido e barato. Pode-se argumentar que o fluxo de trabalho que pode importar mais (decodificação por inferência *e* em contextos longos de tokens em loops agentivos apertados) é o mais difícil de alcançar simultaneamente pelos ~ambos os campos do que existe hoje (adjacente à NVIDIA primeiro HBM e Cerebras adjacente primeiro à SRAM). Enfim, a equipe do MatX tem nota A++, então é um prazer ter um pequeno envolvimento e parabéns pelo aumento!

Melhores

Classificação

Favoritos