É ótimo ver a @AMD selecionar o vLLM como um dos frameworks de inferência designados para o Hackathon GPU MODE. 🎉 O desafio: impulsionar o desempenho de inferência de ponta a ponta do Kimi K2.5 1T FP4 em 8× AMD Instinct MI355X — usando vLLM ou AMD ATOM. Prêmio principal: $650,000. O que torna isso diferente: as otimizações vencedoras devem ser mescláveis no AMD ATOM ou no vLLM upstream. Melhorias que entram no vLLM beneficiam toda a comunidade. A Fase 1 (otimização do kernel) vai até 6 de abril. Mais detalhes ⬇️