Saat Intelijen Diukir di Batu Umat manusia sedang melakukan sesuatu yang gila saat ini. Membangun pusat data seukuran kota, mendirikan pembangkit listrik di sebelahnya, meluncurkan jaringan satelit, dan ruang pendingin yang penuh dengan superkomputer yang melahap ratusan kilowatt dengan sistem pendingin cair. Semua untuk menjalankan AI. Yakin ini adalah masa depan. Tapi sejarah menceritakan kisah yang berbeda. Setiap revolusi teknologi telah dimulai dengan prototipe yang mengerikan, dan monster-monster itu menghilang saat terobosan praktis tiba. Ingat ENIAC? Binatang tabung vakum yang memenuhi seluruh ruangan. Itu menunjukkan kepada umat manusia keajaiban komputasi, tetapi lambat, mahal, dan tidak pernah bisa ditingkatkan. Kemudian transistor tiba, dan semuanya berubah. Workstation, PC, smartphone mengikuti. Dunia memilih untuk melampaui ENIAC daripada membangun lebih banyak dari mereka. Pusat data GPU yang kami bangun hari ini adalah ENIAC AI. Mereka bekerja. Mereka mempesona. Tapi ini bukan akhir. Sebelum Anda terus membaca, buka situs di bawah ini dan tanyakan apa saja. Hanya tiga puluh detik yang diperlukan. Anda perlu merasakan ini di tubuh Anda. LLM telah tiba di mana jawabannya sudah ada saat Anda menekan enter. Kami telah hidup seolah-olah latensi dalam respons AI adalah apa adanya. Itu sebabnya ini adalah kejutan yang tidak dapat disampaikan oleh tolok ukur. Komputasi serba guna mengubah dunia karena menjadi cepat, murah, dan mudah dibangun. AI akan mengikuti jalur yang sama. Masalahnya adalah bahwa AI saat ini tidak berada di dekat jalur itu. Ketika Anda mengajukan pertanyaan, ia menopang dagunya di tangannya dan berpikir sejenak. Asisten pengkodean menatap kosong selama beberapa menit sebelum memberikan jawaban, menghancurkan aliran Anda. Bahkan ketika respons sepersekian detik diperlukan, yang Anda dapatkan hanyalah balasan santai. Berbicara dengan AI masih seperti membuat panggilan internasional. Bicara, tunggu, tunggu lagi. Latensi ini adalah dinding antara manusia dan AI. Masalah biayanya lebih buruk. Menjalankan AI saat ini membutuhkan peralatan dan modal yang sangat besar. Tumpukan HBM, I / O kompleks, kabel, pendinginan cair, kemasan canggih, penumpukan 3D. Mengapa semua ini diperlukan? Karena tempat yang mengingat dan tempat yang berpikir terpisah. Pikirkan seperti ini. Otak Anda ada di Seoul, tetapi semua ingatan Anda disimpan di gudang di Busan. Setiap kali Anda perlu mengingat sesuatu, Anda harus membawa KTX ke Busan untuk mengambilnya. Perangkat keras AI modern memiliki struktur yang persis seperti ini. Memori (DRAM) besar dan murah tetapi berada di luar chip, membuat akses ribuan kali lebih lambat daripada memori on-chip. Dan Anda juga tidak dapat memasukkan DRAM ke dalam chip komputasi — proses fabrikasinya pada dasarnya berbeda. Kontradiksi ini menciptakan semua kerumitan dalam perangkat keras AI. Untuk mengurangi perjalanan pulang pergi Seoul-Busan, kami meletakkan HBM sebagai rel berkecepatan tinggi, membangun susun 3D sebagai gedung tinggi, dan menjalankan pendingin cair sebagai AC besar-besaran. Secara alami, konsumsi daya melonjak dan biaya melambung tinggi. Taalas membalikkan ini dari bawah ke atas. Alih-alih mengambil kenangan dari Busan, mereka menanamnya langsung di dalam otak. Mereka menyatukan memori dan komputasi pada satu chip pada kepadatan tingkat DRAM. Kemudian mereka melangkah lebih jauh: membangun silikon khusus untuk setiap model. Tidak biasa - jahitan yang dipesan lebih dahulu. Sepanjang sejarah komputasi, spesialisasi mendalam selalu menjadi jalan paling pasti menuju efisiensi ekstrem. Taalas mendorong prinsip itu ke batas mutlaknya. Bagaimana ini mungkin? Mereka mengukir pengetahuan model yang dipelajari - bobotnya - langsung ke lapisan logam silikon. Kecerdasan, secara harfiah diukir di batu. Transistor tunggal memegang bobot sekaligus melakukan perkalian. Ia mengingat dan berpikir pada saat yang sama. Dalam kata-kata pendiri Ljubisa Bajic, ini "bukan fisika nuklir - ini adalah trik cerdas yang tidak dilihat siapa pun karena tidak ada yang menempuh jalan ini." Mereka menjaga kerangka chip tetap utuh dan menukar hanya dua lapisan logam untuk menyesuaikannya untuk model tertentu. Tato yang berbeda pada tubuh yang sama. Pada proses 6nm TSMC, dibutuhkan dua bulan dari bobot model ke kartu kerja. Chip HC1, dengan Llama 3.1 8B diukir ke dalam silikonnya, memproses sekitar 17.000 token per detik per pengguna. Nvidia H200 melakukan 230, B200 melakukan 353, Groq 594, SambaNova 932, Cerebras 1.981. Semua orang mengendarai sepeda. Taalas naik jet. Satu kartu menarik 200 watt. Sepuluh kartu di server, 2.500 watt. Penggemar sudah cukup. Ini terhubung langsung ke pusat data mana pun yang dibangun dalam tiga puluh tahun terakhir. Biaya pembuatan: seperdua puluh. Kekuatan: sepersepuluh. Tidak ada HBM, tidak ada kemasan canggih, tidak ada penumpukan 3D, tidak ada pendinginan cair. Tidak ada yang gratis, tentu saja. Jika GPU serbaguna adalah speaker yang dapat memutar lagu apa pun, chip Taalas adalah kotak musik yang memainkan satu lagu dengan sempurna. Ini tidak pintar, dan ketika modelnya berubah, Anda memerlukan chip baru. Tetapi ukuran konteks dapat disesuaikan, dan penyempurnaan LoRA berfungsi. Dan yang terpenting, ambang batas di mana model menjadi cukup untuk tugas sehari-hari semakin dekat. Jika model perbatasan maju sedikit lebih banyak, kita akan memasuki periode di mana satu model melayani pekerjaan rutin untuk waktu yang cukup lama. Saat itulah ekonomi kotak musik khusus bertahan. Nvidia mengakuisisi Groq seharga $20 miliar, SoftBank menelan Graphcore, Intel meraih SambaNova. Gelombang besar menuju silikon spesifik inferensi sedang terbentuk saat ini. Taalas berdiri di tepi yang paling radikal. Produk pertama dimulai dengan Llama yang diukir dalam silikon, diikuti oleh model penalaran ukuran sedang di musim semi dan model perbatasan pada musim dingin. AI yang sangat cepat adalah AI yang berbeda secara fundamental. Ketika latensi sub-milidetik menjadi mungkin, skenario yang hanya bisa kita bayangkan menjadi nyata. Bukan panggilan internasional - nuansa berlari bersama seseorang dan berbicara dengan kecepatan penuh. Taalas dibuka sebagai beta meskipun model pertamanya belum menjadi perbatasan. Di balik itu ada kepercayaan diri: rasakan sendiri apa yang menjadi mungkin dengan kecepatan ini. ...