K-berarti sederhana. Membuatnya cepat di GPU tidak. Itulah sebabnya kami membangun Flash-KMeans — implementasi sadar IO dari k-means tepat yang memikirkan kembali algoritme seputar kemacetan GPU modern. Dengan menyerang kemacetan memori secara langsung, Flash-KMeans mencapai percepatan 30x melalui cuML dan percepatan 200x melalui FAISS — dengan algoritme yang sama persis, hanya direkayasa untuk perangkat keras saat ini. Pada skala jutaan, Flash-KMeans dapat menyelesaikan iterasi k-means dalam milidetik. Algoritme klasik — didesain ulang untuk GPU modern. Kertas: Kode: