Taalas menjalankan Llama 3 8B dengan 16k token per detik per pengguna. Itu hampir merupakan peningkatan urutan besarnya bahkan dibandingkan dengan sistem berbasis SRAM seperti Cerebras. Ide kunci: setiap chip dikhususkan untuk model tertentu. Chip adalah modelnya. Demo obrolan cukup liar: