AMI Labs hat gerade 1,03 Milliarden Dollar gesammelt. World Labs hat ein paar Wochen zuvor 1 Milliarde Dollar gesammelt. Beide setzen auf Weltmodelle. Aber fast niemand meint mit diesem Begriff dasselbe. Hier sind meiner Meinung nach fünf Kategorien von Weltmodellen. --- 1. Joint Embedding Predictive Architecture (JEPA) Vertreter: AMI Labs (@ylecun), V-JEPA 2 Die zentrale Wette hier ist, dass die Rekonstruktion von Pixeln allein ein ineffizientes Ziel für das Lernen der Abstraktionen ist, die für das physische Verständnis erforderlich sind. LeCun sagt das schon seit Jahren – die Vorhersage jedes Pixels der Zukunft ist in jeder stochastischen Umgebung unlösbar. JEPA umgeht dies, indem es in einem gelernten latenten Raum vorhersagt. Konkret trainiert JEPA einen Encoder, der Videopatches in Repräsentationen abbildet, und dann einen Prädiktor, der maskierte Regionen in diesem Repräsentationsraum vorhersagt – nicht im Pixelraum. Das ist eine entscheidende Designentscheidung. Ein generatives Modell, das Pixel rekonstruiert, ist gezwungen, sich auf niedrigstufige Details (exakte Textur, Beleuchtung, Blattposition) festzulegen, die von Natur aus unvorhersehbar sind. Durch die Arbeit mit abstrakten Einbettungen kann JEPA erfassen, dass "der Ball vom Tisch fallen wird", ohne jeden Frame des Fallens halluzinieren zu müssen. V-JEPA 2 ist bisher der klarste großangelegte Beweis. Es handelt sich um ein 1,2 Milliarden Parameter-Modell, das auf über 1 Million Stunden Video durch selbstüberwachtes maskiertes Vorhersagen vortrainiert wurde – keine Labels, kein Text. Die zweite Trainingsphase wird interessant: Nur 62 Stunden Roboterdaten aus dem DROID-Datensatz reichen aus, um ein handlungsbedingtes Weltmodell zu erzeugen, das Zero-Shot-Planung unterstützt. Der Roboter generiert Kandidaten-Aktionssequenzen, rollt sie durch das Weltmodell vorwärts und wählt diejenige aus, deren vorhergesagtes Ergebnis am besten mit einem Zielbild übereinstimmt. Dies funktioniert mit Objekten und Umgebungen, die während des Trainings nie gesehen wurden. Die Dateneffizienz ist die eigentliche technische Schlagzeile. 62 Stunden sind fast nichts. Es deutet darauf hin, dass selbstüberwachtes Vortraining auf vielfältigen Videos genügend physisches Vorwissen bereitstellen kann, sodass sehr wenig domänenspezifische Daten im Nachhinein benötigt werden. Das ist ein starkes Argument für das JEPA-Design – wenn Ihre Repräsentationen gut genug sind, müssen Sie nicht jede Aufgabe von Grund auf neu angehen. AMI Labs ist LeCuns Versuch, dies über die Forschung hinaus zu treiben. Sie konzentrieren sich zunächst auf Gesundheitswesen und Robotik, was angesichts von JEPAs Stärke im physischen Denken mit begrenzten Daten sinnvoll ist. Aber das ist eine langfristige Wette – ihr CEO hat offen gesagt, dass kommerzielle Produkte Jahre entfernt sein könnten. --- 2. Räumliche Intelligenz (3D-Weltmodelle) Vertreter: World Labs (@drfeifei) ...