TaalasはLlama 3 8Bを1ユーザーあたり1秒あたり16,000トークンで運用しています。これは、CerebrasのようなSRAMベースのシステムと比べてもほぼ桁違いの増加です。 重要な考え方:各チップは特定のモデルに特化しています。チップがモデルです。 チャットデモはかなりワイルドです: