Hari ini saya membaca sebuah artikel panjang tentang Harness Engineering — puluhan ribu kata, hampir pasti ditulis oleh AI. Reaksi pertama saya bukanlah "wow, konsep yang kuat." Itu adalah "apakah orang-orang ini memiliki ide selain menciptakan istilah baru untuk yang lama?" Saya selalu terganggu oleh pola ini di dunia AI — penemuan kembali konsep yang ada secara konstan. Dari rekayasa cepat hingga rekayasa konteks, sekarang untuk memanfaatkan teknik. Setiap beberapa bulan seseorang menciptakan istilah baru, menulis esai 10.000 kata, menaburkan beberapa studi kasus perusahaan besar, dan seluruh komunitas mulai berdengung. Tetapi jika Anda benar-benar melihat kontennya, itu adalah hal yang sama setiap saat: Rancang lingkungan tempat model Anda berjalan — informasi apa yang diterimanya, alat apa yang dapat digunakan, bagaimana kesalahan dicegat, bagaimana memori dikelola di seluruh sesi. Ini sudah ada sejak hari ChatGPT diluncurkan. Itu tidak menjadi disiplin baru hanya karena seseorang – untuk alasan apa pun – memutuskan untuk memberinya nama baru. Meskipun demikian, selain keluhan, penelitian dan studi kasus yang dikutip dalam artikel memang memiliki nilai — terutama karena mereka sangat tumpang tindih dengan apa yang telah saya bangun dengan how-to-sglang. Jadi izinkan saya menggunakan ini sebagai kesempatan untuk berbicara tentang kesalahan yang sebenarnya telah saya buat. Beberapa latar belakang pertama. Permintaan yang paling umum di komunitas SGLang adalah Pertanyaan Cara — cara menerapkan DeepSeek-V3 pada 8 GPU, apa yang harus dilakukan ketika gateway tidak dapat mencapai alamat pekerja, apakah kesenjangan antara GLM-5 INT4 dan FP8 resmi signifikan. Pertanyaan-pertanyaan ini mencakup permukaan teknis yang sangat luas, dan seiring dengan pertumbuhan komunitas yang semakin cepat, kami semakin tidak dapat mengikuti jawaban. Jadi saya mulai membangun sistem multi-agen untuk menjawabnya secara otomatis. Ide pertama, tentu saja, adalah yang paling naif — membangun satu Agen yang mahatahu, memasukkan semua dokumen, kode, dan buku masak SGLang ke dalamnya, dan membiarkannya menjawab semuanya. Itu tidak berhasil. Anda tidak memerlukan teori teknik harness untuk menjelaskan alasannya — jendela konteks bukanlah RAM. Semakin banyak Anda memasukkan ke dalamnya, semakin banyak perhatian model tersebar dan semakin buruk jawabannya. Seorang Agen yang mencoba untuk secara bersamaan memahami kuantisasi, pemisahan PD, penyajian difusi, dan kompatibilitas perangkat keras akhirnya tidak memahami satu pun dari mereka secara mendalam. Desain yang akhirnya kami dapatkan adalah arsitektur ahli sub-domain berlapis-lapis. Dokumentasi SGLang sudah memiliki batas fungsional alami — fitur canggih, platform, model yang didukung — dengan buku masak yang diatur berdasarkan model. Kami mengubah setiap sub-domain menjadi agen ahli independen, dengan Manajer Debat Ahli yang bertanggung jawab untuk menerima pertanyaan, menguraikannya menjadi sub-pertanyaan, berkonsultasi dengan Tabel Perutean Ahli untuk mengaktifkan agen yang tepat, memecahkan secara paralel, lalu mensintesis jawaban. Melihat ke belakang, desain ini memetakan hampir sempurna ke pola yang dianjurkan oleh komunitas teknik harness. Tetapi ketika saya membangunnya, saya tidak tahu pola-pola ini memiliki nama. Dan saya tidak perlu melakukannya. 1. Pengungkapan progresif — kami tidak membuang semua dokumentasi ke agen tunggal mana pun. Setiap pakar domain hanya memuat pengetahuan domainnya sendiri, dan Manajer memutuskan siapa yang akan diaktifkan berdasarkan jenis pertanyaan. Firasat saya adalah bahwa desain ini menghasilkan jauh lebih banyak peningkatan daripada menukar model yang lebih kuat yang pernah dilakukan. Anda tidak perlu tahu ini disebut "pengungkapan progresif" untuk membuat keputusan ini. Anda hanya perlu mencoba pendekatan "masukkan semuanya" sekali dan melihatnya gagal. 2. Repositori sebagai sumber kebenaran — seluruh alur kerja hidup di repositori how-to-sglang. Semua agen ahli mengambil pengetahuan mereka dari file penurunan harga di dalam repo, tanpa ketergantungan pada dokumen eksternal atau perjanjian lisan. Sejak awal, kami memiliki keinginan untuk menulis satu sglang-maintain.md besar yang mencakup semuanya. Kami dengan cepat mengetahui bahwa itu tidak berhasil. Tim Codex OpenAI membuat kesalahan yang sama — mereka mencoba satu AGENTS.md besar dan melihatnya membusuk dengan cara yang dapat diprediksi. Anda tidak perlu membaca blog mereka untuk menginjak ranjau darat ini sendiri. Ini adalah masalah rekayasa perangkat lunak klasik dari "dokumen monolitik selalu basi", kecuali dalam konteks agen konsekuensinya lebih buruk - dokumentasi basi tidak hanya tidak dibaca, tetapi secara aktif menyesatkan agen. 3. Perutean terstruktur — Tabel Perutean Ahli secara eksplisit memetakan jenis pertanyaan ke agen. Pertanyaan tentang GLM-5 INT4 mengaktifkan Pakar Domain Buku Masak dan Pakar Domain Kuantisasi secara bersamaan. Manajer tidak menebak; Ini mengikuti indeks terstruktur. Kerumunan teknik harness menyebut ini "kendala mekanis." Saya menyebutnya teknik normal. Saya tidak mengatakan ide di balik rekayasa harness itu buruk. Penelitian yang dikutip solid, konsep ACI dari agen SWE benar-benar layak untuk diketahui, dan arsitektur agen ganda Anthropic (agen inisialisasi + agen pengkodean) adalah bahan referensi yang berharga bagi siapa saja yang melakukan tugas jangka panjang. Apa yang menurut saya melelahkan adalah penciptaan istilah-istilah baru yang terus-menerus - mengemas, memantapkan akal sehat rekayasa sebagai disiplin baru, kemudian membuat kecemasan seputar "Anda tertinggal jika Anda tidak tahu kata ini." Rekayasa cepat, rekayasa konteks, rekayasa harness — keduanya adalah aspek yang berbeda dari hal yang sama. Bulan depan seseorang mungkin akan membuat teknik perancah atau teknik orkestrasi, menulis esai panjang lainnya yang mengutip makalah agen SWE yang sama, dan komunitas akan memulai siklus amplifikasi lainnya. Apa yang sebenarnya saya pelajari dari how-to-sglang dapat dinyatakan tanpa kosakata baru:...