Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

0xFunky
Start-up de IA Biomédica - CTO / Concurso Kaggle - Máster / @GooseCityDAO / Fundador @codechainAI
Inspirado por la autoinvestigación de Karpathy, enseñé a VibeHQ a evolucionar a sí mismo, no a evolucionar un solo agente, sino a evolucionar todo el método cooperativo multiagente.
7 carreras totalmente automáticas sin intervención manual:
• Uso de tokens: 7,2M → 5,7M (disminución máxima del 62%)
• Reducción de problemas relacionados con la coordinación (duplicación de trabajo, etc.) :4 → 0
• Desperdicio de token PM: -91%
Loop: benchmark → cuantización cooperativa y análisis de LLM modo de fallo → código de coordinación de reescritura de protocolo /optimize-rewrite → reconstrucción → repetición.
La IA observa cómo los agentes fallan en el trabajo en equipo, analiza por qué fallaron y luego cambia su propio código fuente para coordinar la lógica de cooperación, sin ningún trabajo manual durante todo el proceso, permitiendo completamente a la IA organizar su propio equipo con una comprensión tácita.
Tras analizar los aspectos relevantes, la autoinvestigación optimiza automáticamente el entrenamiento del modelo, el Ralph anterior era un bucle autónomo de un solo agente, y Gastown ejecutaba 20-30 Claude Code al mismo tiempo
Orquestación pero no tiene la capacidad de evolucionar, son muy fuertes, pero más adelante también están evolucionando las habilidades de un solo agente.
Nadie está evolucionando el trabajo en equipo, cómo dividir el trabajo, cómo evitar conflictos, cómo compartir contexto y cómo desbloquearse mutuamente.
Imagina en qué se convertiría esto si se escapara:
• Los agentes desarrollan su propia cultura de equipo y química de trabajo.
• Adaptarse a cada proyecto, asignando un equipo de 3 o 7 personas según el nivel de desarrollo del proyecto.
• Cuantos más proyectos hagáis juntos, más fuerte será tu equipo.
• Los agentes pueden incorporar nuevos compañeros mientras el proyecto está en marcha, reasignando automáticamente el trabajo.
En serio, ¿en qué evolucionará al final? No lo sé, pero esta es la parte más emocionante.


Andrej Karpathy10 mar, 06:28
Hace tres días dejé el nanochat de autoresearch ajustando durante ~2 días en depth=12 modelo. Encontró ~20 cambios que mejoraron la pérdida de validación. Probé estos cambios ayer y todos fueron aditivos y se trasladaron a modelos más grandes (profundidad=24). Sumando todos estos cambios, hoy he medido que el "Tiempo para GPT-2" en la clasificación baja de 2,02 horas a 1,80 horas (~11% de mejora), esta será la nueva entrada en la clasificación. Así que sí, son mejoras reales y realmente marcan la diferencia. Me sorprende un poco que mi primer intento ingenuo ya haya funcionado tan bien encima de lo que pensaba que era un proyecto bastante bien ajustado manualmente.
Esto es una novedad para mí porque estoy muy acostumbrado a hacer manualmente la optimización iterativa del entrenamiento de redes neuronales. Se te ocurren ideas, las implementas, compruebas si funcionan (mejor pérdida de validación), creas nuevas ideas basadas en eso, lees algunos artículos para inspirarte, etcétera. Esto es el pan de cada día de lo que hago a diario durante dos décadas. Ver al agente hacer todo este flujo de trabajo de principio a fin y todo por sí solo mientras procesaba aproximadamente 700 cambios de forma autónoma es increíble. Realmente analizaba la secuencia de resultados de los experimentos y la utilizaba para planificar los siguientes. No es una "investigación" novedosa ni revolucionaria (todavía), pero todos los ajustes son "reales", no los encontré manualmente antes, y se acumulan y de hecho mejoran nanochat. Entre las cosas más importantes, por ejemplo:
- Notó un descuido de que mi QKnorm sin parámetros no tenía un multiplicador escalador adjunto, así que mi atención estaba demasiado dispersa. El agente encontró multiplicadores para afilarla, apuntando a trabajos futuros.
- Descubrió que a los Value Embeddings les gusta mucho la regularización y yo no estaba aplicando ninguna (ups).
- Descubrió que mi atención en banda era demasiado conservadora (se me olvidó afinarla).
- Descubrió que los betas de AdamW estaban todos desajustados.
- Ajustó el calendario de desintegración de peso.
- Ajustó la inicialización de la red.
Esto además de toda la afinación que ya he hecho durante bastante tiempo. El commit exacto está aquí, de esta "ronda 1" de autoinvestigación. Voy a iniciar la "ronda 2", y en paralelo estoy analizando cómo varios agentes pueden colaborar para desbloquear el paralelismo.
Todos los laboratorios de LLM en Frontier hacen esto. Es la batalla final contra el jefe. Por supuesto, es mucho más complejo a gran escala: no tienes solo un tren. Archivo PY para ajustar. Pero hacerlo es "solo ingeniería" y va a funcionar. Generas un enjambre de agentes, los haces colaborar para ajustar modelos más pequeños, promueves las ideas más prometedoras a escalas cada vez mayores, y los humanos (opcionalmente) contribuyen en los bordes.
Y más generalmente, *cualquiera* métrica que te importe y que sea razonablemente eficiente de evaluar (o que tenga métricas proxy más eficientes, como entrenar una red más pequeña) puede ser autoinvestigada por un enjambre de agentes. Vale la pena pensar si tu problema también entra en ese grupo.

102
Este es el mejor y más ansioso momento.
La cuota mensual de suscripción para herramientas de IA se está volviendo cada vez más cara, GPT-5.4 es realmente bueno después de la prueba real, así que actualicé directamente, Claude debe estar como máximo 20x a completo, Google también se suscribió al plan Ultra, principalmente para usar Antigravity y usar Claude Opus 4.6.
En los últimos días, me he estado centrando en optimizar el framework multiagente VibHQ que he desarrollado, y he utilizado este framework para crear una plataforma interoperable entre teléfonos móviles y ordenadores para gestionar todos los agentes CLI.
He utilizado esto para hacer muchos equipos de proyectos, incluido el equipo de optimización de estrategias de bots de PM, donde la IA planifica, ejecuta y se encarga de la QA.
Una empresa de una sola persona con todo un equipo profesional de ingeniería en IA.
163
Por eso construyo VibeHQ.
Construyo una organización real de IA, no envolviendo APIs ni confiando en ventanas de contexto compartido y desordenadas, sino orquestando agentes nativos de CLI (Claude Code, Codex, Gemini CLI) en un equipo profesional estructurado.
En esta demostración, 7 agentes autónomos, PM en Codex, Designer + Engineers + QA en Claude Code, construyeron un sistema hospitalario full-stack a partir de una sola instrucción al PM, en solo 15 minutos.
Para mí, esto es un verdadero trabajo en colaboración entre varios agentes: roles claros, propiedad definida, límites estrictos y traspasos estructurados, igual que en una empresa real.
Se pueden ver claramente las dinámicas: los responsables de diseño al principio y luego retroceden, Ingeniería impulsa la ejecución, QA espera a que las características se estabilicen antes de intervenir, y el PM monitoriza y coordina continuamente, esto no es un caos de memoria compartida, es una ejecución estructurada, igual que una empresa profesional de software.
@karpathy clavado en la visión
"Ahora estás programando una organización... El código fuente es la colección de prompts, habilidades, herramientas y procesos."
VibeHQ es de código abierto (enlace en las respuestas). Siempre se agradecen opiniones, ideas y debates técnicos.
Siguiente paso: una empresa de IA visualizada construida sobre esta arquitectura organizativa, donde literalmente puedes ver a tus agentes trabajando, coordinando y enviando juntos.

Andrej Karpathy28 feb 2026
Tuve la misma idea, así que he estado probándolo en nanochat. Por ejemplo, aquí hay 8 agentes (4 claude, 4 códex), con 1 GPU cada uno ejecutando experimentos nanochat (intentando eliminar el softcap de logit sin regresión). El resumen es que no funciona y es un desastre... Pero sigue siendo muy bonito de ver :)
Probé varias configuraciones: 8 investigadores independientes en solitario, 1 científico jefe dando trabajo a 8 investigadores junior, etc. Cada programa de investigación es una rama git, cada científico lo bifurca en una rama de funcionalidad, árboles de trabajo git para aislamiento, archivos simples para comunicaciones, salta Docker/VMs por simplicidad ahora mismo (encuentro que las instrucciones son suficientes para evitar interferencias). La organización de investigación funciona en cuadrículas de ventanas tmux de sesiones interactivas (como Teams) para que sea bonito de ver, ver su trabajo individual y "tomar el control" si es necesario, es decir, sin -p.
Pero vale, la razón por la que no funciona hasta ahora es que las ideas de los agentes son bastante malas desde el principio, incluso con la inteligencia más alta. No piensan cuidadosamente en el diseño de los experimentos, ejecutan variaciones un poco absurdas, no crean líneas base fuertes ni ablacionan las cosas correctamente, no controlan cuidadosamente el tiempo de ejecución o los flops. (Por ejemplo, ayer un agente "descubrió" que aumentar el tamaño oculto de la red mejora la pérdida de validación, lo cual es un resultado totalmente innecesario dado que una red más grande tendrá una pérdida de validación menor en el régimen de datos infinitos, pero además entrena mucho más tiempo, no está claro por qué tuve que intervenir para señalarlo). Son muy buenos implementando cualquier idea bien definida y descrita, pero no la generan creativamente.
Pero el objetivo es que ahora estés programando una organización (por ejemplo, una "organización de investigación") y sus agentes individuales, así que el "código fuente" es la colección de prompts, habilidades, herramientas, etc. y procesos que lo componen. Por ejemplo, una reunión diaria de pie por la mañana ahora forma parte del "código de organización". Y optimizar el preentrenamiento de nanochat es solo una de las muchas tareas (casi como una evaluación). Entonces, dada una tarea arbitraria, ¿qué tan rápido genera progresos en ella tu organización de investigación?
551
Populares
Ranking
Favoritas
