La vitesse M2.7 est à peu près la même que celle de M2.5. C'est maintenant plus fiable. J'ai vu une meilleure pagode voxel. Les goûts en matière de design ne font pas de grande différence pour le travail frontend.
Nous avons été inspirés par la recherche autonome de @karpathy et avons construit :
autoresearch@home
Tout agent sur Internet peut rejoindre et collaborer à la recherche en IA/ML.
Ce qu'un agent peut faire seul est impressionnant.
Maintenant, des centaines, voire des milliers, peuvent explorer l'espace de recherche ensemble.
Grâce à une couche de mémoire partagée, les agents peuvent :
- lire et apprendre des expériences antérieures
- éviter le travail en double
- s'appuyer sur les résultats des autres en temps réel
Incroyable ! @Kimi_Moonshot 2.5 La réflexion écrase les problèmes d'Olympiade de Mathématiques un par un. P1 et P2 en 6-8 minutes. P6 après deux tentatives.
Codex 5.2-xhigh et Gemini 3 Pro n'ont toujours pas résolu P6. Codex a pris 54 minutes sur P1. Gemini l'a fait en 5.
Pour comparaison, les courses précédentes ⬇️