Секрет продуктивності LLM на рівні дата-центру? Безперервне пакетування 🚀 Це дозволяє серверу виконувати багато запитів майже без накладних витрат. І так, незабаром у @PicoGPT та MLX-Swift 👀 з'явиться продовження партій