K-Means on yksinkertainen. Nopean tekeminen näytönohjaimella ei ole. Flash-KMeans on IO-tietoinen toteutus täsmällisille k-meanseille, joka muuttaa algoritmia nykyaikaisten GPU-pullonkaulojen ympärillä. Hyökkäämällä suoraan muistipullonkauloihin Flash-KMeans saavuttaa: - 30-kertainen nopeutus cuML:llä - 200-kertainen kiihdytys FAISS:iin verrattuna Käyttäen täsmälleen samaa algoritmia, mutta suunniteltu nykyajan laitteistolle. Miljoonan mittakaavassa Flash-KMeanit voivat suorittaa k-mean-iteroinnin millisekunneissa. Tässä syy, miksi tämä on tänään tärkeää: K-means on aina ollut offline-primitiivi. Jotain, jonka ajat kerran esikäsittelyyn ja jatkat eteenpäin. Nämä nopeutukset muuttavat tämän. ↳ Vektoritietokannat kuten FAISS käyttävät k-meansia hakuindekseiden rakentamiseen. Nopeampi k-keskiarvo tarkoittaa, että voit indeksoida uudelleen dynaamisesti datan muuttuessa, ei eräajoa yhdessä yössä. ↳ LLM:n kvantisointimenetelmät tarvitsevat k-meansin löytääkseen optimaalisen painon koodikirjat per kerros toistuvasti. Se, mikä vie tunteja, voi nyt viedä minuutteja. ↳ MoE-mallit tarvitsevat nopean token-reitityksen päättelyvaiheessa. Millisekunnin k-means mahdollistaa tämän ajamisen päättelysilmukan sisällä, ei vain esikäsittelyssä. 200x yli FAISS:n on luku, joka kannattaa sisäistää. FAISS on alan standardi. Useimmat tuotantovektorihakujärjestelmät toimivat sen päällä. Linkki artikkeliin ja koodi seuraavassa twiitissä!