j'ai open-sourcé autokernel -- autoresearch pour les noyaux GPU vous lui donnez n'importe quel modèle pytorch. il profile le modèle, trouve les noyaux bottleneck, écrit des remplacements triton et exécute des expériences pendant la nuit. modifiez un fichier, évaluez les performances, conservez ou revenez en arrière, répétez indéfiniment. même boucle que @karpathy autoresearch, appliquée à l'optimisation des noyaux 95 expériences. 18 TFLOPS → 187 TFLOPS. 1,31x par rapport à cuBLAS. tout autonome 9 types de noyaux (matmul, attention flash, mlp fusionné, layernorm, rmsnorm, softmax, rope, entropie croisée, réduction). la loi d'Amdahl décide quoi optimiser ensuite. 5 vérifications de correction avant que toute accélération ne compte l'agent lit program.md (le "code de l'organisation de recherche"), modifie, exécute et conserve ou revient en arrière. ~40 expériences/heure. ~320 pendant la nuit livré avec des définitions GPT-2, LLaMA et BERT autonomes afin que vous n'ayez pas besoin de la bibliothèque transformers pour commencer.