Com a iminente tsunami de demanda por tokens, existem oportunidades significativas para orquestrar a memória+computação subjacente *exatamente certo* para LLMs. A restrição fundamental e não óbvia é que, devido ao processo de fabricação de chips, você obtém dois pools de memória completamente distintos (de diferentes implementações físicas também): 1) SRAM on-chip que está imediatamente ao lado das unidades de computação, que é incrivelmente rápida, mas de capacidade muito baixa, e 2) DRAM off-chip que tem capacidade extremamente alta, mas cujo conteúdo você só pode extrair através de um canudo longo. Além disso, há muitos detalhes da arquitetura (por exemplo, matrizes sistólicas), numéricos, etc. O design do substrato físico ideal e, em seguida, a orquestração de memória+computação ao longo dos principais fluxos de trabalho de LLMs (pré-preenchimento/decode de inferência, treinamento/ajuste fino, etc.) com o melhor throughput/latência/$ é provavelmente o quebra-cabeça intelectual mais interessante de hoje, com as maiores recompensas (\cite 4.6T de NVDA). Tudo isso para obter muitos tokens, rápido e barato. Pode-se argumentar que o fluxo de trabalho que pode importar mais (decodificação de inferência *e* ao longo de longos contextos de tokens em laços agentes apertados) é o mais difícil de alcançar simultaneamente pelos ~dois campos do que existe hoje (adjacente ao NVIDIA HBM-first e adjacente ao Cerebras SRAM-first). De qualquer forma, a equipe MatX é de grau A++, então é um prazer ter uma pequena participação e parabéns pela captação!