Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
K-Means thì đơn giản. Làm cho nó nhanh trên GPU thì không đơn giản.
Flash-KMeans là một triển khai k-means chính xác có nhận thức về IO, suy nghĩ lại thuật toán xung quanh các nút thắt cổ chai GPU hiện đại.
Bằng cách tấn công trực tiếp vào các nút thắt cổ chai bộ nhớ, Flash-KMeans đạt được:
- Tăng tốc 30 lần so với cuML
- Tăng tốc 200 lần so với FAISS
Sử dụng cùng một thuật toán chính xác, chỉ được thiết kế cho phần cứng ngày nay.
Tại quy mô triệu, Flash-KMeans có thể hoàn thành một vòng lặp k-means trong vài mili giây.
Đây là lý do tại sao điều này quan trọng ngày nay:
K-means luôn là một nguyên thủy ngoại tuyến. Một cái gì đó bạn chạy một lần để tiền xử lý dữ liệu và tiếp tục. Những sự tăng tốc này thay đổi điều đó.
↳ Các cơ sở dữ liệu vector như FAISS sử dụng k-means để xây dựng chỉ mục tìm kiếm. K-means nhanh hơn có nghĩa là bạn có thể tái chỉ mục một cách động khi dữ liệu thay đổi, không phải gộp lại qua đêm.
↳ Các phương pháp định lượng LLM cần k-means để tìm các mã trọng số tối ưu, theo từng lớp, lặp đi lặp lại. Những gì mất hàng giờ giờ có thể chỉ mất vài phút.
↳ Các mô hình MoE cần định tuyến token nhanh trong thời gian suy diễn. K-means trong mili giây làm cho việc chạy điều này trong vòng lặp suy diễn trở nên khả thi, không chỉ trong tiền xử lý.
Sự tăng tốc 200 lần so với FAISS là con số cần ghi nhớ. FAISS là tiêu chuẩn ngành. Hầu hết các hệ thống tìm kiếm vector sản xuất đều dựa trên nó.
Liên kết đến bài báo và mã trong tweet tiếp theo!
Hàng đầu
Thứ hạng
Yêu thích
