Trendande ämnen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
K-Means är enkelt. Att göra det snabbt på GPU:n är det inte.
Flash-KMeans är en IO-medveten implementation av exakta k-means som omprövar algoritmen kring moderna GPU-flaskhalsar.
Genom att direkt angripa minnesflaskhalsarna uppnår Flash-KMeans:
- 30x hastighetsökning jämfört med cuML
- 200x hastighetsökning jämfört med FAISS
Använder exakt samma algoritm, bara konstruerad för dagens hårdvara.
I miljonskalan kan Flash-KMeans slutföra en k-means iteration på millisekunder.
Här är varför detta är viktigt idag:
K-means har alltid varit en offline-primitiv. Något du kör en gång för att förbehandla data och sedan gå vidare. Dessa hastighetsökningar förändrar det.
↳ Vektordatabaser som FAISS använder k-means för att bygga sökindex. Snabbare k-means innebär att du kan indexera om dynamiskt när data ändras, inte batcha det över en natt.
↳ LLM-kvantiseringsmetoder kräver k-medel för att hitta kodböcker med optimal vikt, per lager, upprepade gånger. Det som tar timmar kan nu ta minuter.
↳ MoE-modeller behöver snabb tokenroutning vid inferenstid. Millisekund k-means gör det möjligt att köra detta inom inferensloopen, inte bara i förbehandling.
200x över FAISS är siffran att internalisera. FAISS är branschstandarden. De flesta produktionsvektorsökningssystem sitter ovanpå den.
Länk till artikeln och koden i nästa tweet!
Topp
Rankning
Favoriter
