Tienda de dapps | Hub de Web3 para eventos y juegos

Temas en tendencia

0xFunky

Start-up de IA Biomédica - CTO / Concurso Kaggle - Máster / @GooseCityDAO / Fundador @codechainAI

Inspirado por la autoinvestigación de Karpathy, enseñé a VibeHQ a evolucionar a sí mismo, no a evolucionar un solo agente, sino a evolucionar todo el método cooperativo multiagente. 7 carreras totalmente automáticas sin intervención manual: • Uso de tokens: 7,2M → 5,7M (disminución máxima del 62%) • Reducción de problemas relacionados con la coordinación (duplicación de trabajo, etc.) :4 → 0 • Desperdicio de token PM: -91% Loop: benchmark → cuantización cooperativa y análisis de LLM modo de fallo → código de coordinación de reescritura de protocolo /optimize-rewrite → reconstrucción → repetición. La IA observa cómo los agentes fallan en el trabajo en equipo, analiza por qué fallaron y luego cambia su propio código fuente para coordinar la lógica de cooperación, sin ningún trabajo manual durante todo el proceso, permitiendo completamente a la IA organizar su propio equipo con una comprensión tácita. Tras analizar los aspectos relevantes, la autoinvestigación optimiza automáticamente el entrenamiento del modelo, el Ralph anterior era un bucle autónomo de un solo agente, y Gastown ejecutaba 20-30 Claude Code al mismo tiempo Orquestación pero no tiene la capacidad de evolucionar, son muy fuertes, pero más adelante también están evolucionando las habilidades de un solo agente. Nadie está evolucionando el trabajo en equipo, cómo dividir el trabajo, cómo evitar conflictos, cómo compartir contexto y cómo desbloquearse mutuamente. Imagina en qué se convertiría esto si se escapara: • Los agentes desarrollan su propia cultura de equipo y química de trabajo. • Adaptarse a cada proyecto, asignando un equipo de 3 o 7 personas según el nivel de desarrollo del proyecto. • Cuantos más proyectos hagáis juntos, más fuerte será tu equipo. • Los agentes pueden incorporar nuevos compañeros mientras el proyecto está en marcha, reasignando automáticamente el trabajo. En serio, ¿en qué evolucionará al final? No lo sé, pero esta es la parte más emocionante.

Hace tres días dejé el nanochat de autoresearch ajustando durante ~2 días en depth=12 modelo. Encontró ~20 cambios que mejoraron la pérdida de validación. Probé estos cambios ayer y todos fueron aditivos y se trasladaron a modelos más grandes (profundidad=24). Sumando todos estos cambios, hoy he medido que el "Tiempo para GPT-2" en la clasificación baja de 2,02 horas a 1,80 horas (~11% de mejora), esta será la nueva entrada en la clasificación. Así que sí, son mejoras reales y realmente marcan la diferencia. Me sorprende un poco que mi primer intento ingenuo ya haya funcionado tan bien encima de lo que pensaba que era un proyecto bastante bien ajustado manualmente. Esto es una novedad para mí porque estoy muy acostumbrado a hacer manualmente la optimización iterativa del entrenamiento de redes neuronales. Se te ocurren ideas, las implementas, compruebas si funcionan (mejor pérdida de validación), creas nuevas ideas basadas en eso, lees algunos artículos para inspirarte, etcétera. Esto es el pan de cada día de lo que hago a diario durante dos décadas. Ver al agente hacer todo este flujo de trabajo de principio a fin y todo por sí solo mientras procesaba aproximadamente 700 cambios de forma autónoma es increíble. Realmente analizaba la secuencia de resultados de los experimentos y la utilizaba para planificar los siguientes. No es una "investigación" novedosa ni revolucionaria (todavía), pero todos los ajustes son "reales", no los encontré manualmente antes, y se acumulan y de hecho mejoran nanochat. Entre las cosas más importantes, por ejemplo: - Notó un descuido de que mi QKnorm sin parámetros no tenía un multiplicador escalador adjunto, así que mi atención estaba demasiado dispersa. El agente encontró multiplicadores para afilarla, apuntando a trabajos futuros. - Descubrió que a los Value Embeddings les gusta mucho la regularización y yo no estaba aplicando ninguna (ups). - Descubrió que mi atención en banda era demasiado conservadora (se me olvidó afinarla). - Descubrió que los betas de AdamW estaban todos desajustados. - Ajustó el calendario de desintegración de peso. - Ajustó la inicialización de la red. Esto además de toda la afinación que ya he hecho durante bastante tiempo. El commit exacto está aquí, de esta "ronda 1" de autoinvestigación. Voy a iniciar la "ronda 2", y en paralelo estoy analizando cómo varios agentes pueden colaborar para desbloquear el paralelismo. Todos los laboratorios de LLM en Frontier hacen esto. Es la batalla final contra el jefe. Por supuesto, es mucho más complejo a gran escala: no tienes solo un tren. Archivo PY para ajustar. Pero hacerlo es "solo ingeniería" y va a funcionar. Generas un enjambre de agentes, los haces colaborar para ajustar modelos más pequeños, promueves las ideas más prometedoras a escalas cada vez mayores, y los humanos (opcionalmente) contribuyen en los bordes. Y más generalmente, *cualquiera* métrica que te importe y que sea razonablemente eficiente de evaluar (o que tenga métricas proxy más eficientes, como entrenar una red más pequeña) puede ser autoinvestigada por un enjambre de agentes. Vale la pena pensar si tu problema también entra en ese grupo.

Por eso construyo VibeHQ. Construyo una organización real de IA, no envolviendo APIs ni confiando en ventanas de contexto compartido y desordenadas, sino orquestando agentes nativos de CLI (Claude Code, Codex, Gemini CLI) en un equipo profesional estructurado. En esta demostración, 7 agentes autónomos, PM en Codex, Designer + Engineers + QA en Claude Code, construyeron un sistema hospitalario full-stack a partir de una sola instrucción al PM, en solo 15 minutos. Para mí, esto es un verdadero trabajo en colaboración entre varios agentes: roles claros, propiedad definida, límites estrictos y traspasos estructurados, igual que en una empresa real. Se pueden ver claramente las dinámicas: los responsables de diseño al principio y luego retroceden, Ingeniería impulsa la ejecución, QA espera a que las características se estabilicen antes de intervenir, y el PM monitoriza y coordina continuamente, esto no es un caos de memoria compartida, es una ejecución estructurada, igual que una empresa profesional de software. @karpathy clavado en la visión "Ahora estás programando una organización... El código fuente es la colección de prompts, habilidades, herramientas y procesos." VibeHQ es de código abierto (enlace en las respuestas). Siempre se agradecen opiniones, ideas y debates técnicos. Siguiente paso: una empresa de IA visualizada construida sobre esta arquitectura organizativa, donde literalmente puedes ver a tus agentes trabajando, coordinando y enviando juntos.

Populares

Ranking

Favoritas