DApp Store | Web3 Hub für Ereignisse und Spiele

Trend-Themen

scott belsky

der kreativen Welt helfen, Ideen umzusetzen. Partner @a24 / Gründer von A24Labs; Gründer @Behance, Bod @atlassian & MoMA, Autor, Seed-Investor, Produkt-Enthusiast.

gute Beiträge über die verschwommenen Grenzen verschiedener Ansätze zu sogenannten Weltmodellen…

AMI Labs hat gerade 1,03 Milliarden Dollar gesammelt. World Labs hat ein paar Wochen zuvor 1 Milliarde Dollar gesammelt. Beide setzen auf Weltmodelle. Aber fast niemand meint mit diesem Begriff dasselbe. Hier sind meiner Meinung nach fünf Kategorien von Weltmodellen. --- 1. Joint Embedding Predictive Architecture (JEPA) Vertreter: AMI Labs (@ylecun), V-JEPA 2 Die zentrale Wette hier ist, dass die Rekonstruktion von Pixeln allein ein ineffizientes Ziel für das Lernen der Abstraktionen ist, die für das physische Verständnis erforderlich sind. LeCun sagt das schon seit Jahren – die Vorhersage jedes Pixels der Zukunft ist in jeder stochastischen Umgebung unlösbar. JEPA umgeht dies, indem es in einem gelernten latenten Raum vorhersagt. Konkret trainiert JEPA einen Encoder, der Videopatches in Repräsentationen abbildet, und dann einen Prädiktor, der maskierte Regionen in diesem Repräsentationsraum vorhersagt – nicht im Pixelraum. Das ist eine entscheidende Designentscheidung. Ein generatives Modell, das Pixel rekonstruiert, ist gezwungen, sich auf niedrigstufige Details (exakte Textur, Beleuchtung, Blattposition) festzulegen, die von Natur aus unvorhersehbar sind. Durch die Arbeit mit abstrakten Einbettungen kann JEPA erfassen, dass "der Ball vom Tisch fallen wird", ohne jeden Frame des Fallens halluzinieren zu müssen. V-JEPA 2 ist bisher der klarste großangelegte Beweis. Es handelt sich um ein 1,2 Milliarden Parameter-Modell, das auf über 1 Million Stunden Video durch selbstüberwachtes maskiertes Vorhersagen vortrainiert wurde – keine Labels, kein Text. Die zweite Trainingsphase wird interessant: Nur 62 Stunden Roboterdaten aus dem DROID-Datensatz reichen aus, um ein handlungsbedingtes Weltmodell zu erzeugen, das Zero-Shot-Planung unterstützt. Der Roboter generiert Kandidaten-Aktionssequenzen, rollt sie durch das Weltmodell vorwärts und wählt diejenige aus, deren vorhergesagtes Ergebnis am besten mit einem Zielbild übereinstimmt. Dies funktioniert mit Objekten und Umgebungen, die während des Trainings nie gesehen wurden. Die Dateneffizienz ist die eigentliche technische Schlagzeile. 62 Stunden sind fast nichts. Es deutet darauf hin, dass selbstüberwachtes Vortraining auf vielfältigen Videos genügend physisches Vorwissen bereitstellen kann, sodass sehr wenig domänenspezifische Daten im Nachhinein benötigt werden. Das ist ein starkes Argument für das JEPA-Design – wenn Ihre Repräsentationen gut genug sind, müssen Sie nicht jede Aufgabe von Grund auf neu angehen. AMI Labs ist LeCuns Versuch, dies über die Forschung hinaus zu treiben. Sie konzentrieren sich zunächst auf Gesundheitswesen und Robotik, was angesichts von JEPAs Stärke im physischen Denken mit begrenzten Daten sinnvoll ist. Aber das ist eine langfristige Wette – ihr CEO hat offen gesagt, dass kommerzielle Produkte Jahre entfernt sein könnten. --- 2. Räumliche Intelligenz (3D-Weltmodelle) Vertreter: World Labs (@drfeifei) Während JEPA fragt: "Was wird als Nächstes passieren?", fragt Fei-Fei Lis Ansatz: "Wie sieht die Welt in 3D aus und wie kann ich sie aufbauen?" Die These ist, dass echtes Verständnis eine explizite räumliche Struktur erfordert – Geometrie, Tiefe, Beständigkeit und die Fähigkeit, eine Szene aus neuen Blickwinkeln erneut zu beobachten – nicht nur zeitliche Vorhersage. Das ist eine andere Wette als bei JEPA: Anstatt abstrakte Dynamiken zu lernen, lernen Sie eine strukturierte 3D-Repräsentation der Umgebung, die Sie direkt manipulieren können. Ihr Produkt Marble erzeugt beständige 3D-Umgebungen aus Bildern, Text, Video oder 3D-Layouts. "Beständig" ist das Schlüsselwort – im Gegensatz zu einem Videogenerierungsmodell, das eine lineare Sequenz von Frames produziert, sind die Ausgaben von Marble tatsächliche 3D-Szenen mit räumlicher Kohärenz. Sie können die Kamera umkreisen, Objekte bearbeiten, Meshes exportieren. Das bringt es näher an ein 3D-Erstellungstool als an ein prädiktives Modell, was absichtlich ist. Zum Kontext: Dies baut auf einer Linie von neuronalen 3D-Repräsentationsarbeiten (NeRFs, 3D Gaussian Splatting) auf, drängt jedoch in Richtung Generierung statt Rekonstruktion. Anstatt eine reale Szene aus Mehransichtsfotos zu erfassen, synthetisiert Marble plausible neue Szenen aus spärlichen Eingaben. Die Herausforderung besteht darin, physische Plausibilität aufrechtzuerhalten – konsistente Geometrie, angemessene Beleuchtung, sinnvolle Okklusion – über eine generierte Welt, die nie existiert hat. --- 3. Gelerntes Simulation (Generatives Video + Latent-Space RL) Vertreter: Google DeepMind (Genie 3, Dreamer V3/V4), Runway GWM-1 Diese Kategorie gruppiert zwei Linien, die sich schnell annähern: generative Videomodelle, die lernen, interaktive Welten zu simulieren, und RL-Agenten, die Weltmodelle lernen, um Politiken in der Vorstellung zu trainieren. Die Linie der Videogenerierung. DeepMinds Genie 3 ist die reinste Version – Texteingabe, navigierbare Umgebung, 24 fps bei 720p, mit Konsistenz für einige Minuten. Anstatt sich auf einen explizit handgebauten Simulator zu verlassen, lernt es interaktive Dynamiken aus Daten. Die Schlüsselarchitektur ist die autoregressive Generierung, die auf Benutzeraktionen basiert: Jeder Frame wird basierend auf allen vorherigen Frames plus der aktuellen Eingabe (nach links bewegen, nach oben schauen usw.) generiert. Das bedeutet, dass das Modell ein implizites räumliches Gedächtnis aufrechterhalten muss – sich von einem Baum abwenden und zurückdrehen, und es muss immer noch da sein. DeepMind berichtet von Konsistenz bis zu etwa einer Minute, was beeindruckend ist, aber immer noch weit entfernt von dem, was Sie für ein nachhaltiges Agententraining benötigen würden. Runways GWM-1 basiert auf einer ähnlichen Grundlage – autoregressive Frame-Vorhersage, die auf Gen-4.5 basiert – teilt sich jedoch in drei Produkte: Worlds, Robotics und Avatars. Die Aufteilung in Worlds / Avatars / Robotics deutet darauf hin, dass das praktische Generalitätsproblem immer noch nach Aktionsraum und Anwendungsfall zerlegt wird. Die RL-Linie. Die Dreamer-Serie hat die längere intellektuelle Geschichte. Die Kernidee ist klar: Lernen Sie ein latentes Dynamikmodell aus Beobachtungen, rollen Sie dann vorgestellte Trajektorien im latenten Raum aus und optimieren Sie eine Politik durch Rückpropagation durch die Vorhersagen des Modells. Der Agent muss während des Politiklernens nie mit der realen Umgebung interagieren. Dreamer V3 war die erste KI, die Diamanten in Minecraft ohne menschliche Daten erhielt. Dreamer 4 tat dasselbe rein offline – keine Interaktion mit der Umgebung. Architektonisch bewegt sich Dreamer 4 von der früheren rekurrenten Linie von Dreamer zu einem skalierbareren transformerbasierten Weltmodell-Rezept und führte "Shortcut Forcing" ein – ein Trainingsziel, das es dem Modell ermöglicht, in nur 4 Schritten von rauschhaften zu sauberen Vorhersagen zu springen, anstatt der typischen 64 in Diffusionsmodellen. Das ist es, was Echtzeitinferenz auf einem einzelnen H100 möglich macht. Diese beiden Unterlinien fühlten sich früher unterschiedlich an: Videogenerierung produziert visuelle Umgebungen, während RL-Weltmodelle trainierte Politiken erzeugen. Aber Dreamer 4 verwischte die Grenze – Menschen können jetzt interaktiv in seinem Weltmodell spielen, und Genie 3 wird verwendet, um DeepMinds SIMA-Agenten zu trainieren. Der Konvergenzpunkt ist, dass beide dasselbe benötigen: ein Modell, das genau simulieren kann, wie Aktionen Umgebungen über längere Horizonte beeinflussen. Die offene Frage für diese gesamte Kategorie ist eine, die LeCun immer wieder aufwirft: Bedeutet das Lernen, Pixel zu generieren, die physikalisch korrekt aussehen, tatsächlich, dass das Modell Physik versteht? Oder ist es Musterabgleich des Aussehens? Dreamer 4s Fähigkeit, Diamanten in Minecraft aus reiner Vorstellung zu erhalten, ist ein starkes empirisches Gegenargument, aber es ist auch ein Spiel mit diskreten, erlernbaren Mechaniken – die reale Welt ist unordentlicher. --- 4. Physikalische KI-Infrastruktur (Simulationsplattform) Vertreter: NVIDIA Cosmos NVIDIAs Ansatz ist, nicht das Weltmodell zu bauen, sondern die Plattform, die jeder andere nutzt, um ihre zu bauen. Cosmos wurde im Januar 2025 auf der CES vorgestellt und deckt den gesamten Stack ab – Datenkuratierungspipeline (20 Millionen Stunden Video in 14 Tagen auf Blackwell verarbeiten, im Vergleich zu über 3 Jahren auf CPU), ein visueller Tokenizer mit 8x besserer Kompression als die vorherige SOTA, Modelltraining über NeMo und Bereitstellung über NIM-Microservices. Die vortrainierten Weltgrundlagenmodelle werden auf 9.000 Billionen Tokens aus 20 Millionen Stunden realen Videos trainiert, die Fahr-, Industrie-, Robotik- und menschliche Aktivitätsdaten umfassen. Sie kommen in zwei Architekturfamilien: diffusionsbasiert (arbeiten mit kontinuierlichen latenten Tokens) und autoregressiv transformerbasiert (Vorhersage des nächsten Tokens auf diskretisierten Tokens). Beide können für spezifische Domänen feinabgestimmt werden. Drei Modellfamilien sitzen oben auf diesem. Predict generiert zukünftige Videozustände aus Text-, Bild- oder Videoeingaben – im Wesentlichen Video-Vorhersage, die für spezifische Roboter- oder Fahr-Szenarien nachtrainiert werden kann. Transfer behandelt die Sim-to-Real-Domänenanpassung, die eines der anhaltenden Kopfschmerzen in der physischen KI ist – Ihr Modell funktioniert großartig in der Simulation, bricht aber in der realen Welt aufgrund visueller und dynamischer Lücken zusammen. Reason (hinzugefügt bei GTC 2025) bringt Ketten von Gedanken über physische Szenen – spatiotemporales Bewusstsein, kausales Verständnis von Interaktionen, Video-Q&A. --- 5. Aktive Inferenz Vertreter: VERSES AI (Karl Friston) Dies ist der Ausreißer auf der Liste – nicht aus der Deep-Learning-Tradition, sondern aus der rechnerischen Neurowissenschaft. Karl Fristons Prinzip der freien Energie besagt, dass intelligente Systeme kontinuierlich Vorhersagen über ihre Umgebung generieren und handeln, um Überraschungen zu minimieren (technisch: variational free energy, eine obere Grenze für Überraschungen). Wo standard RL normalerweise um Belohnungsmaximierung gerahmt wird, rahmt aktive Inferenz Verhalten als Minimierung von variational / erwarteter freier Energie, was zielgerichtete Präferenzen mit epistemischem Wert verbindet. Dies führt zu natürlichem Erkundungsverhalten: Der Agent wird zu Situationen hingezogen, in denen er unsicher ist, da die Auflösung von Unsicherheit die freie Energie reduziert. VERSES baute AXIOM (Aktive eXpanding Inference mit objektzentrierten Modellen) auf diesem Fundament. Die Architektur ist grundlegend anders als neuronale Netzwerk-Weltmodelle. Anstatt eine monolithische Funktionsapproximator zu lernen, hält AXIOM ein strukturiertes generatives Modell aufrecht, bei dem jedes Objekt in der Umgebung ein diskretes Objekt mit typisierten Attributen und Beziehungen ist. Die Inferenz ist bayesianisch – Überzeugungen sind Wahrscheinlichkeitsverteilungen, die über Nachrichtenweitergabe aktualisiert werden, nicht über Gradientenabstieg. Das macht es interpretierbar (Sie können inspizieren, was der Agent über jedes Objekt glaubt), kompositorisch (fügen Sie einen neuen Objekttyp hinzu, ohne neu zu trainieren) und extrem dateneffizient. In ihrer Robotikarbeit haben sie ein hierarchisches Multi-Agenten-Setup gezeigt, bei dem jedes Gelenk eines Roboterarms sein eigener aktiver Inferenzagent ist. Die Gelenkagenten kümmern sich um die lokale Motorsteuerung, während höhere Agenten die Aufgabenplanung übernehmen, die alle über gemeinsame Überzeugungen in einer Hierarchie koordiniert werden. Das gesamte System passt sich in Echtzeit an unbekannte Umgebungen an, ohne neu zu trainieren – Sie bewegen das Zielobjekt und der Agent plant sofort neu, weil er Online-Inferenz durchführt, nicht eine feste Politik ausführt. Sie haben im April 2025 ein kommerzielles Produkt (Genius) ausgeliefert, und die AXIOM-Benchmarks gegen RL-Baselines sind wettbewerbsfähig bei Standardkontrollaufgaben, während sie um Größenordnungen weniger Daten verwenden. --- Im Grunde genommen konkurrieren diese fünf Kategorien nicht wirklich – sie lösen unterschiedliche Teilprobleme. JEPA komprimiert physisches Verständnis. Räumliche Intelligenz rekonstruiert 3D-Strukturen. Gelerntes Simulation trainiert Agenten durch generierte Erfahrungen. NVIDIA liefert die Werkzeuge. Aktive Inferenz bietet eine grundlegend andere rechnerische Theorie der Intelligenz. Ich vermute, dass die Grenzen zwischen ihnen schnell verschwommen werden.

Top

Ranking

Favoriten