La razón por la que fue fácil hacer que nuestra atención flash fuera 1.8x más rápida que torch es la calidad de nuestro perfilador de núcleos. Si tienes RDNA3, ejecuta con VIZ=2.
Puedes hacer zoom y ver el problema y la ejecución de cada instrucción. Hace que ver los cuellos de botella sea tan rápido.
Los LLMs también pueden jugar, no necesitas la interfaz web. extra/viz/cli.py puede leer los mismos archivos de perfilador. Aún está un poco áspero, pero esto va a permitir el mejor pipeline de autoresearch para la velocidad del kernel.
45