DApp Store | Web3 Hub für Ereignisse und Spiele

Trend-Themen

K-Means ist einfach. Es schnell auf der GPU zu machen, ist es nicht. Flash-KMeans ist eine IO-bewusste Implementierung des exakten k-means, die den Algorithmus um moderne GPU-Engpässe neu denkt. Durch die direkte Bekämpfung der Speicherengpässe erreicht Flash-KMeans: - 30x Geschwindigkeitssteigerung gegenüber cuML - 200x Geschwindigkeitssteigerung gegenüber FAISS Mit demselben exakten Algorithmus, nur für die heutige Hardware optimiert. Im Millionenmaßstab kann Flash-KMeans eine k-means-Iteration in Millisekunden abschließen. Hier ist, warum das heute wichtig ist: K-means war schon immer ein Offline-Primitiv. Etwas, das man einmal ausführt, um Daten vorzubereiten und dann weiterzumachen. Diese Geschwindigkeitssteigerungen ändern das. ↳ Vektordatenbanken wie FAISS verwenden k-means, um Suchindizes zu erstellen. Schnellere k-means bedeutet, dass Sie dynamisch neu indizieren können, während sich die Daten ändern, und nicht über Nacht batchen müssen. ↳ LLM-Quantisierungsmethoden benötigen k-means, um optimale Gewichtscodebücher pro Schicht wiederholt zu finden. Was Stunden dauert, könnte jetzt Minuten dauern. ↳ MoE-Modelle benötigen schnelles Token-Routing zur Inferenzzeit. Millisekunden-k-means macht es möglich, dies innerhalb der Inferenzschleife auszuführen, nicht nur in der Vorverarbeitung. Die 200x über FAISS ist die Zahl, die man verinnerlichen sollte. FAISS ist der Branchenstandard. Die meisten Produktions-Vektorsuchsysteme basieren darauf. Link zum Papier und Code im nächsten Tweet!

Top

Ranking

Favoriten