¿El secreto detrás del rendimiento de LLM a nivel de centro de datos? Batching continuo 🚀 Permite que un servidor maneje muchas solicitudes con casi cero sobrecarga. Y sí, el batching continuo llegará pronto a @PicoGPT y MLX-Swift 👀