i öppen källkod autokernel – autoresearch för GPU-kärnor Du kan ge den vilken pytorch-modell som helst. Den profilerar modellen, hittar flaskhalskärnorna, skriver tritonersättningar och kör experiment över natten. Redigera en fil, benchmarka, behåll eller återställ, upprepa för alltid. Samma loop som @karpathy autoforskning, tillämpad på kärnoptimering 95 experiment. 18 TFLOPS → 187 TFLOPS. 1,31x jämfört med cuBLAS. helt autonomt 9 kärntyper (matmul, flash attention, fused mlp, layernorm, rmsnorm, softmax, rope, cross entropy, reduce). Amdahls lag avgör vad som ska optimeras härnäst. 5-stegs korrekthetskontroller innan några hastighetsökningar räknas Agenten läser program.md ("Research Org-koden"), redigerar, kör och behåller eller återställer. ~40 experiment/timme. ~320 över natten levereras med självständiga definitioner av GPT-2, LLaMA och BERT, så du behöver inte transformers-biblioteket för att komma igång