Bersenang-senang dengan penelitian otomatis @karpathy. Saya memberi tahu Claude Code: "Anda adalah kepala ilmuwan laboratorium AI dengan 8 GPU. Anda Andrej Karpathy. Jalankan eksperimen paralel dan putuskan apa yang akan dicoba selanjutnya." Ini mengedit program.md, berjalan selama 11+ jam, dan menyelesaikan 568 eksperimen. Setiap percobaan menggunakan 1 GPU. Setiap putaran "kepala ilmuwan" meninjau hasil putaran 8 sebelumnya dan merancang 8 eksperimen berikutnya. Sangat menarik untuk melihat agen Claude, kepala ilmuwan mengembangkan strategi 3 fase: Fase 1. Eksplorasi Luas Putaran awal mengeksplorasi banyak sumbu: arsitektur, pengoptimal, LR, ablasi. Tahap 2. Penyempurnaan Terfokus Setelah kemenangan mudah mengering, ia menjalankan sapuan yang lebih dalam (misalnya 5 GPU menyapu basis RoPE 30k → 500k dalam satu putaran). Fase 3. Validasi Berat Kemudian, 50–75% anggaran GPU digunakan untuk pemeriksaan varians benih, bukan ide baru. Saya merasa itu berlebihan tbh. Saya akan terus menjalankan kepala ilmuwan untuk melihat apakah itu ditransfer ke model yang lebih besar dan mengalahkan pemenang papan peringkat "Time to GPT-2" baru Andrej.