Syynä siihen, miksi flash-huomiomme oli helppo saada 1,8 kertaa nopeammaksi kuin torch, on ydinprofiilin laatu. Jos sinulla on RDNA3, käytä VIZ=2.
Voit zoomata sisään ja nähdä kunkin käskyn ongelman ja suorituskyvyn. Se tekee pullonkauloista niin nopeaa.
LLM:t voivat myös toimia, et tarvitse verkkokäyttöliittymää. extra/viz/cli.py pystyy lukemaan samoja profilointitiedostoja. Se on vielä hieman karhea, mutta tämä mahdollistaa parhaan automaattisen tutkimusputken ytimen nopeudelle.
27