Grunnen til at det var lett å få flash-oppmerksomheten vår til å være 1,8 ganger raskere enn Torch, er kvaliteten på kernel-profileren vår. Hvis du har RDNA3, kjør med VIZ=2.
Du kan zoome inn og se problemet og utførelsen av hver instruksjon. Det gjør at det går så fort å se flaskehalser.
LLM-er kan også spilles, du trenger ikke webgrensesnittet. extra/viz/cli.py kan lese de samme profilerfilene. Det er fortsatt litt ujevnt, men dette vil muliggjøre den beste autoresearch-pipelinen for kjernehastighet.
39