DApp Store | Hub da Web3 para eventos e jogos

Tópicos em alta

A AMI Labs acabou de levantar US$ 1,03 bilhão. A World Labs arrecadou US$ 1 bilhão algumas semanas antes. Ambos apostam em modelos mundiais. Mas quase ninguém quer dizer a mesma coisa com esse termo. Aqui estão, na minha opinião, cinco categorias de modelos mundiais. --- 1. Arquitetura Preditiva de Incorporação Conjunta (JEPA) Representantes: AMI Labs (@ylecun), V-JEPA 2 A aposta central aqui é que a reconstrução de pixels sozinha é um objetivo ineficiente para aprender as abstrações necessárias para a compreensão física. LeCun vem dizendo isso há anos — prever cada pixel do futuro é intratável em qualquer ambiente estocástico. A JEPA contorna isso ao prever em um espaço latente aprendido. Concretamente, o JEPA treina um codificador que mapeia patches de vídeo para representações, depois um preditor que prevê regiões mascaradas nesse espaço de representação — não em espaço de pixels. Essa é uma escolha de design crucial. Um modelo generativo que reconstrói pixels é forçado a se comprometer com detalhes de baixo nível (textura exata, iluminação, posição da folha) que são inerentemente imprevisíveis. Ao operar com embeddings abstratos, o JEPA pode capturar "a bola vai cair da mesa" sem precisar alucinar cada quadro dela caindo. V-JEPA 2 é o ponto de prova em grande escala mais claro até agora. É um modelo de 1,2B de parâmetros pré-treinado em 1M+ horas de vídeo via previsão mascarada auto-supervisionada — sem rótulos, sem texto. A segunda etapa de treinamento é onde fica interessante: apenas 62 horas de dados robóticos do conjunto de dados DROID são suficientes para produzir um modelo mundial condicionado à ação que suporta planejamento zero-shot. O robô gera sequências de ações candidatas, as rola para frente pelo modelo do mundo e escolhe aquela cujo resultado previsto melhor corresponde a uma imagem de objetivo. Isso funciona em objetos e ambientes nunca vistos durante o treinamento. A eficiência dos dados é a verdadeira manchete técnica. 62 horas é quase nada. Sugere que o pré-treinamento auto-supervisionado em vídeos diversos pode gerar conhecimento físico prévio suficiente para que muito poucos dados específicos de domínio sejam necessários posteriormente. Esse é um argumento forte para o design do JEPA — se suas representações forem boas o suficiente, você não precisa forçar todas as tarefas do zero. A AMI Labs é o esforço da LeCun para levar isso além da pesquisa. Eles estão focando primeiro na saúde e na robótica, o que faz sentido dado o domínio da JEPA no raciocínio físico com dados limitados. Mas essa é uma aposta de longo prazo — o CEO deles disse abertamente que os produtos comerciais podem demorar anos depois. --- 2. Inteligência Espacial (Modelos de Mundo 3D) Representante: World Labs (@drfeifei) ...

Melhores

Classificação

Favoritos