DApp Store | Pusat Web3 untuk Event & Game

Topik trending

Dengan tsunami permintaan token yang akan datang, ada peluang signifikan untuk mengatur memori+komputasi yang mendasarinya *tepat* untuk LLM. Kendala mendasar dan tidak jelas adalah bahwa karena proses fabrikasi chip, Anda mendapatkan dua kumpulan memori yang sama sekali berbeda (dari implementasi fisik yang berbeda juga): 1) SRAM on-chip yang berada tepat di sebelah unit komputasi yang sangat cepat tetapi berkapasitas sangat rendah, dan 2) DRAM off-chip yang memiliki kapasitas yang sangat tinggi, tetapi isinya hanya bisa Anda hisap melalui sedotan panjang. Selain itu, ada banyak detail arsitektur (misalnya susunan sistolik), numerik, dll. Desain substrat fisik yang optimal dan kemudian orkestrasi memori+komputasi di seluruh alur kerja volume teratas LLM (prefill/decode inference, pelatihan/finetuning, dll.) dengan throughput/latensi/$ terbaik mungkin merupakan teka-teki intelektual paling menarik saat ini dengan imbalan tertinggi (\cite 4.6T dari NVDA). Semua itu untuk mendapatkan banyak token, cepat dan murah. Bisa dibilang, alur kerja yang mungkin paling penting (dekode inferensi *dan* melalui konteks token yang panjang dalam loop agen yang ketat) adalah yang paling sulit dicapai secara bersamaan oleh ~kedua kubu dari apa yang ada saat ini (NVIDIA pertama HBM yang berdekatan dan Cerebras yang pertama SRAM yang berdekatan). Bagaimanapun, tim MatX adalah kelas A++ jadi senang saya memiliki sedikit keterlibatan dan selamat atas kenaikan gajinya!

Teratas

Peringkat

Favorit