Un laboratorio chino de IA acaba de publicar discretamente un modelo que se entrenó para mejorar un 30% 🤯 El equipo @MiniMax_AI dio a M2.7 acceso a su propia infraestructura de entrenamiento. Su propia cadena de aprendizaje por refuerzo. Su propia memoria. Luego le dijeron que se mejorara solo. Y así fue... M2.7 desarrolló decenas de habilidades complejas dentro de su propio arnés RL. Actualizó sus propios sistemas de memoria. Optimizó su propio proceso de aprendizaje por refuerzo basándose en los resultados que evaluaba en tiempo real. Ejecutaba este bucle de forma autónoma durante más de 100 rondas, analizando trayectorias de fallo, modificando su propio código de andamiaje, realizando evaluaciones, comparando resultados y decidiendo qué conservar o revertir. No hay ningún humano en el círculo. Solo el modelo mejorando el modelo. El resultado: - Mejora del rendimiento del 30% en evaluaciones internas - 66,6% de tasa de medallas en competiciones de ML (Esto la iguala con Gemini 3,1). SWE-Pro puntua casi igual a Claude Opus) MiniMax ya gestiona el 30% de las operaciones de toda su empresa de forma autónoma con sus propios modelos. El 80% del código recién comprometido en la empresa es generado por IA. Literalmente están lanzando la auto-mejora como infraestructura organizativa y al mercado de valores de Honk Kong le ENCANTA. Estas son las primeras etapas de la auto-mejora recursiva. Y viene de Shanghái.