Với cơn sóng nhu cầu về token sắp tới, có những cơ hội đáng kể để tổ chức bộ nhớ + tính toán cơ bản *đúng cách* cho LLMs. Ràng buộc cơ bản và không rõ ràng là do quy trình chế tạo chip, bạn có hai nhóm bộ nhớ hoàn toàn khác nhau (cũng có các triển khai vật lý khác nhau): 1) SRAM trên chip ngay bên cạnh các đơn vị tính toán, cực kỳ nhanh nhưng có dung lượng rất thấp, và 2) DRAM ngoài chip có dung lượng cực kỳ cao, nhưng nội dung của nó chỉ có thể được hút qua một ống dài. Ngoài ra, còn có nhiều chi tiết của kiến trúc (ví dụ: mảng systolic), số học, v.v. Thiết kế nền tảng vật lý tối ưu và sau đó là tổ chức bộ nhớ + tính toán trên các quy trình làm việc khối lượng lớn của LLMs (giải mã trước khi suy diễn, đào tạo / tinh chỉnh, v.v.) với thông lượng / độ trễ / $ tốt nhất có lẽ là câu đố trí tuệ thú vị nhất ngày nay với phần thưởng cao nhất (\cite 4.6T của NVDA). Tất cả đều nhằm có được nhiều token, nhanh và rẻ. Có thể nói, quy trình làm việc có thể quan trọng nhất (giải mã suy diễn *và* trong các ngữ cảnh token dài trong các vòng lặp tác động chặt chẽ) là quy trình khó đạt được đồng thời nhất bởi ~cả hai bên của những gì tồn tại ngày nay (NVIDIA bên HBM trước và Cerebras bên SRAM trước). Dù sao thì đội ngũ MatX là A++ nên tôi rất vui khi có một sự tham gia nhỏ và chúc mừng về việc huy động vốn!