O segredo por trás do desempenho de LLM a nível de datacenter? Agrupamento contínuo 🚀 Isso permite que um servidor gerencie muitos pedidos com quase zero sobrecarga. E sim, o agrupamento contínuo está a chegar ao @PicoGPT e ao MLX-Swift em breve 👀