DApp Store | Hub da Web3 para eventos e jogos

Tópicos em alta

O motivo de ser fácil conseguir que nossa atenção flash fosse 1,8x mais rápida que a do torch é a qualidade do nosso kernel profiler. Se você tem RDNA3, use VIZ=2.

Você pode dar zoom e ver o problema e o executivo de cada instrução. Isso faz com que ver gargalos seja muito rápido.

LLMs também podem funcionar, você não precisa da interface web. Extra/viz/cli.py podem ler os mesmos arquivos de perfil. Ainda é um pouco irregular, mas isso vai permitir o melhor pipeline de pesquisa automática para velocidade do kernel.

47

Melhores

Classificação

Favoritos