DApp Store | Hub Web3 pour les événements et les jeux

Rubriques tendance

Avec le tsunami de demande à venir pour les tokens, il existe d'importantes opportunités pour orchestrer la mémoire et le calcul sous-jacents *juste comme il faut* pour les LLMs. La contrainte fondamentale et non évidente est que, en raison du processus de fabrication des puces, vous obtenez deux pools de mémoire complètement distincts (avec des implémentations physiques différentes également) : 1) la SRAM sur puce qui est immédiatement à côté des unités de calcul, incroyablement rapide mais de très faible capacité, et 2) la DRAM hors puce qui a une capacité extrêmement élevée, mais dont le contenu ne peut être aspiré que par une longue paille. En plus de cela, il y a de nombreux détails de l'architecture (par exemple, les tableaux systoliques), les numériques, etc. La conception du substrat physique optimal et ensuite l'orchestration de la mémoire et du calcul à travers les flux de travail de volume supérieur des LLMs (pré-remplissage/décodage d'inférence, entraînement/ajustement fin, etc.) avec le meilleur débit/latence/$ est probablement le puzzle intellectuel le plus intéressant d'aujourd'hui avec les plus grandes récompenses (\cite 4.6T de NVDA). Tout cela pour obtenir de nombreux tokens, rapidement et à moindre coût. On peut dire que le flux de travail qui pourrait avoir le plus d'importance (décodage d'inférence *et* sur de longs contextes de tokens dans des boucles agentiques serrées) est celui qui est le plus difficile à réaliser simultanément par les ~deux camps de ce qui existe aujourd'hui (NVIDIA adjacent à HBM en premier et Cerebras adjacent à SRAM en premier). Quoi qu'il en soit, l'équipe MatX est de grade A++, donc c'est un plaisir pour moi d'avoir une petite implication et félicitations pour la levée de fonds !

Meilleurs

Classement

Favoris