A Taalas executa o Llama 3 8B a 16k tokens por segundo por utilizador. Isso é quase um aumento de uma ordem de magnitude mesmo em comparação com sistemas baseados em SRAM como o Cerebras. Ideia principal: cada chip é especializado para um determinado modelo. O chip é o modelo. A demonstração de chat é bastante impressionante: