Laporan Banger dari tim Kimi: Perhatian Residual Koneksi sisa membuat Transformers dalam dapat dilatih. Tetapi mereka juga memaksa pertumbuhan keadaan tersembunyi yang tidak terkendali dengan kedalaman. Karya ini mengusulkan alternatif yang lebih bersih. Ini memperkenalkan Residu Perhatian, yang menggantikan akumulasi sisa tetap dengan perhatian softmax dibandingkan output lapisan sebelumnya. Alih-alih menjumlahkan semuanya secara membabi buta, setiap lapisan secara selektif mengambil representasi sebelumnya yang sebenarnya dibutuhkan. Untuk menjaga ini tetap praktis dalam skala besar, mereka menambahkan versi blok yang mengompresi lapisan menjadi ringkasan blok, memulihkan sebagian besar keuntungan dengan overhead sistem minimal. Mengapa itu penting? Jalur sisa hampir tidak berubah di seluruh LLM modern, meskipun mereka mengatur bagaimana informasi bergerak melalui kedalaman. Makalah ini menunjukkan bahwa membuat konten pencampuran bergantung pada meningkatkan hukum penskalaan, cocok dengan garis dasar yang dilatih dengan komputasi 1,25x lebih banyak, meningkatkan GPQA-Diamond sebesar +7,5 dan HumanEval sebesar +3,1, sambil menjaga overhead inferensi di bawah 2%. Kertas: Pelajari cara membangun agen AI yang efektif di akademi kami: