eu open-sourced autokernel -- autoresearch para núcleos GPU dá-lhe qualquer modelo pytorch. ele perfilha o modelo, encontra os núcleos com gargalos, escreve substituições triton e executa experimentos durante a noite. edite um arquivo, faça benchmark, mantenha ou reverta, repita para sempre. mesmo loop que @karpathy autoresearch, aplicado à otimização de núcleos 95 experimentos. 18 TFLOPS → 187 TFLOPS. 1.31x vs cuBLAS. tudo autónomo 9 tipos de núcleos (matmul, atenção flash, mlp fundido, layernorm, rmsnorm, softmax, rope, entropia cruzada, redução). a lei de Amdahl decide o que otimizar a seguir. 5 verificações de correção em 5 etapas antes que qualquer aceleração conte o agente lê program.md (o "código da organização de pesquisa"), edita, executa e mantém ou reverte. ~40 experimentos/hora. ~320 durante a noite vem com definições autossuficientes de GPT-2, LLaMA e BERT para que você não precise da biblioteca transformers para começar