Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
K-Means es sencillo. Hacerlo rápido en la GPU no lo es.
Flash-KMeans es una implementación consciente de E/S de k-means exactos que replantea el algoritmo alrededor de los cuellos de botella de las GPUs modernas.
Al atacar directamente los cuellos de botella de memoria, Flash-KMeans consigue:
- Aceleración 30x sobre cuML
- Aceleración de 200x sobre FAISS
Usando exactamente el mismo algoritmo, solo que diseñado para el hardware actual.
A escala millonaria, los Flash-KMeans pueden completar una iteración k-media en milisegundos.
Aquí tienes por qué esto importa hoy:
K-means siempre ha sido una primitiva offline. Algo que ejecutas una vez para preprocesar los datos y luego seguir adelante. Estas aceleraciones cambian eso.
↳ Las bases de datos vectoriales como FAISS utilizan k-means para construir índices de búsqueda. Un k-means más rápido significa que puedes reindexar dinámicamente a medida que cambian los datos, no agruparlos de la noche a la mañana.
↳ Los métodos de cuantización LLM necesitan k-means para encontrar libros de códigos de pesos óptimos, por capa, repetidamente. Lo que lleva horas ahora puede ser minutos.
↳ Los modelos MoE necesitan un enrutamiento rápido de tokens en tiempo de inferencia. Milisegundos k-medios hacen viable ejecutar esto dentro del bucle de inferencia, no solo en preprocesamiento.
El número de 200x sobre FAISS es el que hay que internalizar. FAISS es el estándar del sector. La mayoría de los sistemas de búsqueda vectorial de producción se sitúan encima.
¡Enlace al artículo y código en el próximo tuit!
Populares
Ranking
Favoritas
