K-Means är enkelt. Att göra det snabbt på GPU:n är det inte. Flash-KMeans är en IO-medveten implementation av exakta k-means som omprövar algoritmen kring moderna GPU-flaskhalsar. Genom att direkt angripa minnesflaskhalsarna uppnår Flash-KMeans: - 30x hastighetsökning jämfört med cuML - 200x hastighetsökning jämfört med FAISS Använder exakt samma algoritm, bara konstruerad för dagens hårdvara. I miljonskalan kan Flash-KMeans slutföra en k-means iteration på millisekunder. Här är varför detta är viktigt idag: K-means har alltid varit en offline-primitiv. Något du kör en gång för att förbehandla data och sedan gå vidare. Dessa hastighetsökningar förändrar det. ↳ Vektordatabaser som FAISS använder k-means för att bygga sökindex. Snabbare k-means innebär att du kan indexera om dynamiskt när data ändras, inte batcha det över en natt. ↳ LLM-kvantiseringsmetoder kräver k-medel för att hitta kodböcker med optimal vikt, per lager, upprepade gånger. Det som tar timmar kan nu ta minuter. ↳ MoE-modeller behöver snabb tokenroutning vid inferenstid. Millisekund k-means gör det möjligt att köra detta inom inferensloopen, inte bara i förbehandling. 200x över FAISS är siffran att internalisera. FAISS är branschstandarden. De flesta produktionsvektorsökningssystem sitter ovanpå den. Länk till artikeln och koden i nästa tweet!