Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
¡Realmente me gusta esta dirección de investigación!
Durante mucho tiempo, he estado hablando de la analogía de "cerebro vs. base de datos" de SSM vs Transformers. Una extensión de esto que he mencionado de improviso varias veces es que creo que las compensaciones cambian cuando comenzamos a pensar en construir *sistemas* de múltiples componentes en lugar de modelos individuales.
Por ejemplo, si uno se suscribe a la intuición de que los modelos híbridos modernos están utilizando el SSM como la principal unidad de procesamiento "similar al cerebro", mientras que la atención se centra principalmente en el almacenamiento en caché "similar a la base de datos" para ayudar con la recuperación precisa, entonces planteé la hipótesis de que tal vez un sistema más óptimo podría ser un modelo de lenguaje SSM puro combinado con bases de datos de conocimiento externas explícitas y cachés de contexto. Esto es mucho más análogo a la inteligencia similar a la humana que es impulsada principalmente por el cerebro (un SSM) ayudado por almacenes de conocimiento externos (libros, Internet) y el uso de herramientas.
Este artículo muestra resultados bastante interesantes de que los SSM parecen tener un rendimiento muy favorable en comparación con los Transformers en este régimen de modelos agénticos que operan con el uso de herramientas interactivas. Me alegra ver la intuición validada, ¡y espero que continúe más investigación en este sentido!
Populares
Ranking
Favoritas
