A razão pela qual foi fácil conseguir que a nossa atenção flash fosse 1.8x mais rápida do que a torch é a qualidade do nosso profiler de kernel. Se você tiver RDNA3, execute com VIZ=2.
Você pode ampliar e ver o problema e a execução de cada instrução. Isso torna a visualização de gargalos muito rápida.
Os LLMs também podem jogar, não precisa da interface web. extra/viz/cli.py pode ler os mesmos arquivos de profiler. Ainda está um pouco áspero, mas isso vai permitir o melhor pipeline de autoresearch para a velocidade do kernel.
40