DApp Store | Sede de Web3 para eventos y juegos

Tendencias del momento

Con la inminente ola de demanda de tokens, hay oportunidades significativas para orquestar la memoria y el procesamiento subyacentes *justo bien* para los LLMs. La restricción fundamental y no obvia es que, debido al proceso de fabricación de chips, obtienes dos grupos de memoria completamente distintos (de diferentes implementaciones físicas también): 1) SRAM en chip que está inmediatamente al lado de las unidades de procesamiento, que es increíblemente rápida pero de muy baja capacidad, y 2) DRAM fuera del chip, que tiene una capacidad extremadamente alta, pero cuyo contenido solo puedes extraer a través de una pajita larga. Además de esto, hay muchos detalles de la arquitectura (por ejemplo, arreglos sistólicos), numéricos, etc. El diseño del sustrato físico óptimo y luego la orquestación de memoria y procesamiento a través de los flujos de trabajo de volumen superior de los LLMs (inferencia, prellenado/decodificación, entrenamiento/ajuste fino, etc.) con el mejor rendimiento/latencia/$ es probablemente el rompecabezas intelectual más interesante de hoy con las mayores recompensas (\cite 4.6T de NVDA). Todo esto para obtener muchos tokens, rápido y barato. Se podría argumentar que el flujo de trabajo que puede importar más (decodificación de inferencia *y* sobre contextos de tokens largos en bucles agenciales ajustados) es el que más difícil es de lograr simultáneamente por los ~dos grupos de lo que existe hoy (NVIDIA adyacente a HBM primero y Cerebras adyacente a SRAM primero). De todos modos, el equipo de MatX es de grado A++, así que es un placer tener una pequeña participación y ¡felicitaciones por la recaudación!

Parte superior

Clasificación

Favoritos