O motivo de ser fácil conseguir que nossa atenção flash fosse 1,8x mais rápida que a do torch é a qualidade do nosso kernel profiler. Se você tem RDNA3, use VIZ=2.
Você pode dar zoom e ver o problema e o executivo de cada instrução. Isso faz com que ver gargalos seja muito rápido.
LLMs também podem funcionar, você não precisa da interface web. Extra/viz/cli.py podem ler os mesmos arquivos de perfil. Ainda é um pouco irregular, mas isso vai permitir o melhor pipeline de pesquisa automática para velocidade do kernel.
47