AMI Labs acaba de recaudar 1.0300 millones de dólares. World Labs recaudó 1.000 millones de dólares unas semanas antes. Ambos apuestan por modelos mundiales. Pero casi nadie quiere decir lo mismo con ese término. Aquí tienen, en mi opinión, cinco categorías de modelos mundiales. --- 1. Arquitectura Predictiva de Incrustación Conjunta (JEPA) Representantes: AMI Labs (@ylecun), V-JEPA 2 La apuesta central aquí es que la reconstrucción de píxeles por sí sola es un objetivo ineficiente para aprender las abstracciones necesarias para la comprensión física. LeCun lleva años diciendo esto: predecir cada píxel del futuro es intratable en cualquier entorno estocástico. JEPA evita esto prediciendo en un espacio latente aprendido. Concretamente, JEPA entrena un codificador que mapea parches de vídeo a representaciones, y luego un predictor que predice regiones enmascaradas en ese espacio de representación, no en espacio de píxeles. Esta es una decisión de diseño crucial. Un modelo generativo que reconstruye píxeles se ve obligado a comprometerse con detalles de bajo nivel (textura exacta, iluminación, posición de hojas) que son inherentemente impredecibles. Al operar con incrustaciones abstractas, JEPA puede capturar "la bola caerá de la mesa" sin tener que alucinar cada fotograma de su caída. V-JEPA 2 es el punto de prueba a gran escala más claro hasta ahora. Es un modelo de 1,2 mil millones de parámetros preentrenado con 1M+ horas de vídeo mediante predicción enmascarada auto-supervisada — sin etiquetas, sin texto. La segunda etapa de entrenamiento es donde se pone interesante: solo 62 horas de datos robóticos del conjunto de datos DROID son suficientes para producir un modelo mundial condicionado a la acción que soporta la planificación sin disparos. El robot genera secuencias de acciones candidatas, las avanza a través del modelo del mundo y elige la que mejor coincide con una imagen de objetivo. Esto funciona en objetos y entornos que nunca se han visto durante el entrenamiento. La eficiencia de los datos es el verdadero titular técnico. 62 horas es casi nada. Sugiere que el entrenamiento previo autosupervisado en vídeo diverso puede generar suficiente conocimiento físico previo como para que se necesite muy pocos datos específicos de dominio más adelante. Ese es un argumento sólido a favor del diseño de JEPA: si tus representaciones son lo suficientemente buenas, no necesitas forzar todas las tareas desde cero. AMI Labs es el esfuerzo de LeCun para llevar esto más allá de la investigación. Primero se dirigen a la sanidad y la robótica, lo cual tiene sentido dado la solidez de JEPA en razonamiento físico con datos limitados. Pero esta es una apuesta a largo plazo: su CEO ha dicho abiertamente que los productos comerciales podrían tardar años en llegar. --- 2. Inteligencia espacial (Modelos del Mundo 3D) Representante: World Labs (@drfeifei) ...