¿El secreto detrás del rendimiento de un LLM a nivel de centro de datos? Agrupación 🚀 continua Permite que un servidor gestione muchas solicitudes con casi ninguna sobrecarga. Y sí, pronto llegarán los seguimientos de agrupación a @PicoGPT y MLX-Swift 👀