ho open-sourced autokernel -- autoresearch per i kernel GPU dai qualsiasi modello pytorch. profila il modello, trova i kernel che causano colli di bottiglia, scrive sostituzioni triton e esegue esperimenti durante la notte. modifica un file, esegui benchmark, mantieni o ripristina, ripeti per sempre. stessa logica di @karpathy autoresearch, applicata all'ottimizzazione dei kernel 95 esperimenti. 18 TFLOPS → 187 TFLOPS. 1.31x rispetto a cuBLAS. tutto autonomo 9 tipi di kernel (matmul, flash attention, mlp fuso, layernorm, rmsnorm, softmax, rope, entropia incrociata, riduzione). la legge di Amdahl decide cosa ottimizzare dopo. 5 controlli di correttezza in 5 fasi prima che qualsiasi accelerazione venga conteggiata l'agente legge program.md (il "codice dell'organizzazione della ricerca"), modifica, esegue e mantiene o ripristina. ~40 esperimenti/ora. ~320 durante la notte viene fornito con definizioni autonome di GPT-2, LLaMA e BERT in modo da non aver bisogno della libreria transformers per iniziare