Thật tuyệt khi thấy @AMD chọn vLLM là một trong những khung inference được chỉ định cho Hackathon GPU MODE. 🎉 Thử thách: đẩy hiệu suất inference end-to-end của Kimi K2.5 1T FP4 trên 8× AMD Instinct MI355X — sử dụng vLLM hoặc AMD ATOM. Giải thưởng lớn: 650.000 đô la. Điều gì làm cho điều này khác biệt: các tối ưu hóa chiến thắng phải có thể hợp nhất vào AMD ATOM hoặc vLLM upstream. Những cải tiến được đưa vào vLLM sẽ mang lại lợi ích cho toàn bộ cộng đồng. Giai đoạn 1 (tối ưu hóa kernel) diễn ra đến ngày 6 tháng 4. Chi tiết hơn ⬇️