Flott å se @AMD velge vLLM som et av de utpekte inferensrammeverkene for GPU MODE Hackathon. 🎉 Utfordringen: å presse Kimi K2.5 1T FP4 end-to-end inferensytelse på 8× AMD Instinct MI355X — ved bruk av vLLM eller AMD ATOM. Hovedpremie: 650 000 dollar. Hva som gjør dette annerledes: vinnende optimaliseringer må kunne slås sammen med AMD ATOM eller vLLM oppstrøms. Forbedringer som kommer i vLLM kommer hele samfunnet til gode. Fase 1 (kjerneoptimalisering) varer til 6. april. Flere detaljer ⬇️