De reden dat het gemakkelijk was om onze flash-aandacht 1,8x sneller te maken dan torch, is de kwaliteit van onze kernel-profiler. Als je RDNA3 hebt, voer dan uit met VIZ=2.
Je kunt inzoomen en het probleem en de uitvoering van elke instructie zien. Het maakt het zo snel om knelpunten te zien.
LLM's kunnen ook spelen, je hebt de webinterface niet nodig. extra/viz/cli.py kan dezelfde profilerbestanden lezen. Het is nog een beetje ruw, maar dit gaat de beste autoresearch-pijplijn voor kernel snelheid mogelijk maken.
30