Taalas vận hành Llama 3 8B với tốc độ 16k token mỗi giây cho mỗi người dùng. Điều đó gần như là một sự gia tăng đáng kể ngay cả so với các hệ thống dựa trên SRAM như Cerebras. Ý tưởng chính: mỗi chip được chuyên biệt cho một mô hình nhất định. Chip chính là mô hình. Bản demo trò chuyện thì khá điên rồ: