C'est formidable de voir @AMD sélectionner vLLM comme l'un des cadres d'inférence désignés pour le GPU MODE Hackathon. 🎉 Le défi : pousser les performances d'inférence de bout en bout de Kimi K2.5 1T FP4 sur 8× AMD Instinct MI355X — en utilisant vLLM ou AMD ATOM. Prix principal : 650 000 $. Ce qui rend cela différent : les optimisations gagnantes doivent être fusionnables dans AMD ATOM ou vLLM en amont. Les améliorations qui atterrissent dans vLLM profitent à toute la communauté. La phase 1 (optimisation du noyau) se déroule jusqu'au 6 avril. Plus de détails ⬇️