Tienda de dapps | Hub de Web3 para eventos y juegos

Temas en tendencia

Con el inminente tsunami de demanda de tokens, existen oportunidades significativas para orquestar la memoria subyacente + cálculo *justo a la perfección* para los LLMs. La restricción fundamental y no obvia es que, debido al proceso de fabricación del chip, se obtienen dos pools de memoria completamente distintos (de diferentes implementaciones físicas también): 1) SRAM integrada que está justo al lado de las unidades de cálculo, que es increíblemente rápida pero de muy baja capacidad, y 2) DRAM fuera del chip que tiene una capacidad extremadamente alta, pero cuyo contenido solo puedes aspirar con una pajita larga. Además, hay muchos detalles de la arquitectura (por ejemplo, arrays sistólicos), números, etc. El diseño del sustrato físico óptimo y luego la orquestación de memoria+computación a lo largo de los flujos de trabajo de mayor volumen de los LLMs (prellenado/decodificación de inferencia, entrenamiento/ajuste fino, etc.) con el mejor rendimiento de rendimiento/latencia/dinero es probablemente el puzle intelectual más interesante de hoy en día con las mayores recompensas (\cite 4,6T de NVDA). Todo para conseguir muchas fichas, rápido y barato. Se podría argumentar que el flujo de trabajo que más importe (decodificación por inferencia *y* sobre contextos largos de tokens en bucles agentivos ajustados) es el más difícil de lograr simultáneamente por los ~ambos bandos de lo que existe hoy en día (adyacente a NVIDIA primero con HBM y adyacente a Cerebras con SRAM primero). En fin, el equipo de MatX tiene un nivel A++, así que es un placer tener una pequeña participación y ¡enhorabuena por el aumento!

Populares

Ranking

Favoritas