W obliczu nadchodzącego tsunami popytu na tokeny, istnieją znaczące możliwości zorganizowania pamięci+obliczeń *właściwie* dla LLM-ów. Fundamentalnym i nieoczywistym ograniczeniem jest to, że z powodu procesu wytwarzania chipów, otrzymujesz dwa całkowicie odrębne zasoby pamięci (różniące się również fizycznymi implementacjami): 1) SRAM na chipie, który znajduje się tuż obok jednostek obliczeniowych, jest niesamowicie szybki, ale ma bardzo niską pojemność, oraz 2) DRAM poza chipem, który ma niezwykle wysoką pojemność, ale jego zawartość możesz tylko „sączyć” przez długą słomkę. Na dodatek istnieje wiele szczegółów architektury (np. układy systoliczne), numeryki itp. Projektowanie optymalnego fizycznego podłoża, a następnie organizacja pamięci+obliczeń w górnych przepływach roboczych LLM-ów (prefill/decode wnioskowania, trening/finetuning itp.) z najlepszą przepustowością/opóźnieniem/$ to prawdopodobnie dzisiaj najciekawsza intelektualna zagadka z najwyższymi nagrodami (\cite 4.6T NVDA). Wszystko po to, aby uzyskać wiele tokenów, szybko i tanio. Można argumentować, że przepływ roboczy, który może mieć największe znaczenie (dekodowanie wnioskowania *i* w długich kontekstach tokenów w ciasnych pętlach agentowych) jest tym, który najtrudniej osiągnąć jednocześnie przez ~obie grupy tego, co istnieje dzisiaj (HBM-first sąsiedztwo NVIDIA i SRAM-first sąsiedztwo Cerebras). Tak czy inaczej, zespół MatX jest na poziomie A++, więc miło mi mieć mały udział i gratulacje z okazji pozyskania funduszy!