AMI Labs baru saja mengumpulkan $1,03 miliar. World Labs mengumpulkan $ 1 miliar beberapa minggu sebelumnya. Keduanya bertaruh pada model dunia. Tapi hampir tidak ada yang berarti hal yang sama dengan istilah itu. Berikut ini, dalam pandangan saya, lima kategori model dunia. --- 1. Arsitektur Prediktif Penyematan Bersama (JEPA) Perwakilan: AMI Labs (@ylecun), V-JEPA 2 Taruhan utama di sini adalah bahwa rekonstruksi piksel saja adalah tujuan yang tidak efisien untuk mempelajari abstraksi yang diperlukan untuk pemahaman fisik. LeCun telah mengatakan ini selama bertahun-tahun - memprediksi setiap piksel masa depan sulit diselesaikan di lingkungan stokastik apa pun. JEPA menghindari ini dengan memprediksi dalam ruang laten yang dipelajari. Secara konkret, JEPA melatih encoder yang memetakan tambalan video ke representasi, kemudian prediktor yang memperkirakan wilayah bertopeng di ruang representasi itu — bukan dalam ruang piksel. Ini adalah pilihan desain yang penting. Model generatif yang merekonstruksi piksel dipaksa untuk berkomitmen pada detail tingkat rendah (tekstur yang tepat, pencahayaan, posisi daun) yang secara inheren tidak dapat diprediksi. Dengan mengoperasikan penyematan abstrak, JEPA dapat menangkap "bola akan jatuh dari meja" tanpa harus berhalusinasi setiap bingkai yang jatuh. V-JEPA 2 adalah titik bukti skala besar yang paling jelas sejauh ini. Ini adalah model parameter 1,2B yang telah dilatih sebelumnya pada 1 juta + jam video melalui prediksi bertopeng yang diawasi sendiri — tanpa label, tanpa teks. Tahap pelatihan kedua adalah di mana itu menjadi menarik: hanya 62 jam data robot dari kumpulan data DROID sudah cukup untuk menghasilkan model dunia yang dikondisikan aksi yang mendukung perencanaan tanpa tembakan. Robot menghasilkan urutan aksi kandidat, meluncurkannya ke depan melalui model dunia, dan memilih salah satu yang hasil yang diprediksi paling cocok dengan gambar tujuan. Ini bekerja pada objek dan lingkungan yang tidak pernah terlihat selama pelatihan. Efisiensi data adalah judul teknis yang sebenarnya. 62 jam hampir tidak ada apa-apanya. Ini menunjukkan bahwa pra-pelatihan yang diawasi sendiri pada beragam video dapat mem-bootstrap pengetahuan fisik sebelumnya yang cukup sehingga sangat sedikit data khusus domain yang diperlukan di hilir. Itu adalah argumen yang kuat untuk desain JEPA — jika representasi Anda cukup baik, Anda tidak perlu memaksa setiap tugas dari awal. AMI Labs adalah upaya LeCun untuk mendorong ini melampaui penelitian. Mereka menargetkan perawatan kesehatan dan robotika terlebih dahulu, yang masuk akal mengingat kekuatan JEPA dalam penalaran fisik dengan data yang terbatas. Tapi ini adalah taruhan jangka panjang - CEO mereka secara terbuka mengatakan produk komersial bisa bertahun-tahun lagi. --- 2. Kecerdasan Spasial (Model Dunia 3D) Perwakilan: World Labs (@drfeifei) ...