Taalas rulează Llama 3 8B la 16k tokens pe secundă per utilizator. Aceasta este aproape o creștere de ordin de mărime chiar și comparativ cu sistemele bazate pe SRAM, precum Cerebras. Idee cheie: fiecare cip este specializat pentru un anumit model. Cipul este modelul. Demonstrația de chat este destul de trăsnită: