La razón por la que fue fácil conseguir que nuestra atención flash fuera 1,8 veces más rápida que la de Torch es la calidad de nuestro perfilador de kernel. Si tienes RDNA3, usa VIZ=2.
Puedes ampliar y ver el problema y el ejecutivo de cada instrucción. Hace que ver cuellos de botella sea muy rápido.
Los LLMs también pueden funcionar, no necesitas la interfaz web. Extra/viz/cli.py pueden leer los mismos archivos de perfil. Todavía es un poco tosco, pero esto va a permitir la mejor pipeline de autoinvestigación para la velocidad del kernel.
65