Taalas esegue Llama 3 8B a 16k token al secondo per utente. È quasi un ordine di grandezza in più rispetto ai sistemi basati su SRAM come Cerebras. Idea chiave: ogni chip è specializzato per un dato modello. Il chip è il modello. La demo della chat è piuttosto sorprendente: