Powodem, dla którego łatwo było zwrócić naszą błyskawiczną uwagę, aby była 1,8x szybsza niż torch, jest jakość naszego profilu rdzeni. Jeśli masz RDNA3, uruchom z VIZ=2.
Możesz powiększyć i zobaczyć problem oraz wykonanie każdej instrukcji. To sprawia, że dostrzeganie wąskich gardeł jest bardzo szybkie.
LLM-y mogą również grać, nie potrzebujesz interfejsu webowego. extra/viz/cli.py może odczytywać te same pliki profili. Wciąż jest to trochę niedopracowane, ale to umożliwi najlepszą automatyczną linię badawczą dla prędkości jądra.
78