Bí mật đằng sau hiệu suất LLM cấp datacenter? Batching liên tục 🚀 Nó cho phép một máy chủ xử lý nhiều yêu cầu với gần như không có chi phí bổ sung. Và đúng vậy, batching liên tục sẽ sớm có mặt trên @PicoGPT và MLX-Swift 👀