Il segreto dietro le prestazioni dei LLM a livello di datacenter? Batching continuo 🚀 Permette a un server di gestire molte richieste con quasi zero sovraccarico. E sì, il batching continuo arriverà presto su @PicoGPT e MLX-Swift 👀