DApp Store | Web3 Hub für Ereignisse und Spiele

Trend-Themen

0xFunky

BioMedical AI Start-up - CTO / Kaggle Competition - Master / @GooseCityDAO / Gründer @codechainAI

Inspiriert von Karpathys autoresearch habe ich VibeHQ beigebracht, sich selbst weiterzuentwickeln, nicht nur einen einzelnen Agenten, sondern die gesamte Zusammenarbeit von Multi-Agents. 7 vollautomatische Durchläufe, null menschliches Eingreifen: • Token-Nutzung: 7,2M → 5,7M (Spitzenwert gesenkt um 62%) • Koordinationsprobleme reduziert (Wiederholungsarbeiten usw. ...): 4 → 0 • PM-Token-Verschwendung: -91% Schleife: Benchmark → Kooperationsquantifizierung und LLM-Analyse von Fehlermustern → /optimize-protocol Koordinationscode neu schreiben → neu aufbauen → wiederholen. Die KI beobachtet, wie die Agenten im Team scheitern, analysiert selbst, warum sie scheitern, und ändert dann ihren eigenen Quellcode, um die Kooperationslogik zu koordinieren, alles ohne menschliches Eingreifen, vollständig von der KI organisiert, um ihre eigene Teamdynamik zu entwickeln. Ich habe mir einige verwandte Dinge angesehen, autoresearch optimiert automatisch das Training von Modellen, der vorherige Ralph war ein autonomer Kreislauf eines einzelnen Agenten, Gastown führt gleichzeitig 20-30 Claude-Codes zur Orchestrierung aus, hat aber keine Evolutionsfähigkeit, all das ist beeindruckend, aber letztendlich ging es auch darum, die Fähigkeiten eines einzelnen Agenten weiterzuentwickeln. Niemand entwickelt die Zusammenarbeit im Team selbst, wie man Aufgaben verteilt, wie man Konflikte vermeidet, wie man Kontexte teilt, wie man sich gegenseitig unblockiert, genau wie in der realen Welt muss sich auch das KI-Team einspielen. Stell dir vor, was passieren würde, wenn das weiterläuft: • Agenten entwickeln ihre eigene Teamkultur und Arbeitsdynamik. • Anpassung an Projekte, je nach Entwicklungsstand des Projekts wird ein 3-Personen-Team oder ein 7-Personen-Team zugeteilt. • Je mehr Projekte gleichzeitig bearbeitet werden, desto stärker wird das Team. • Agenten können während des Projekts neue Teamkollegen onboarden und die Arbeit automatisch neu verteilen. Ehrlich gesagt, was letztendlich entstehen wird? Ich weiß es auch nicht, aber das ist gerade der aufregendste Teil.

Vor drei Tagen habe ich das Autoresearch-Tuning von Nanochat für ~2 Tage mit dem Modell depth=12 laufen lassen. Es wurden ~20 Änderungen gefunden, die den Validierungsverlust verbessert haben. Ich habe diese Änderungen gestern getestet und alle waren additiv und wurden auf größere (depth=24) Modelle übertragen. Wenn ich all diese Änderungen zusammenzähle, habe ich heute gemessen, dass die "Zeit bis zu GPT-2" auf der Rangliste von 2,02 Stunden auf 1,80 Stunden sinkt (~11% Verbesserung), das wird der neue Ranglisteneintrag sein. Ja, das sind echte Verbesserungen und sie machen einen tatsächlichen Unterschied. Ich bin leicht überrascht, dass mein erster naiver Versuch bereits so gut funktioniert hat, auf dem, was ich für ein bereits ziemlich manuell gut abgestimmtes Projekt hielt. Das ist das erste Mal für mich, weil ich es gewohnt bin, die iterative Optimierung des Trainings von neuronalen Netzwerken manuell durchzuführen. Man entwickelt Ideen, implementiert sie, überprüft, ob sie funktionieren (besserer Validierungsverlust), entwickelt neue Ideen basierend darauf, liest einige Papers zur Inspiration usw. Das ist das Brot und Butter dessen, was ich täglich seit 2 Jahrzehnten mache. Es ist verrückt zu sehen, wie der Agent diesen gesamten Workflow von Anfang bis Ende und ganz allein durch ca. 700 Änderungen autonom durchgeführt hat. Er hat wirklich die Reihenfolge der Ergebnisse von Experimenten betrachtet und das genutzt, um die nächsten zu planen. Es ist noch keine neuartige, bahnbrechende "Forschung", aber alle Anpassungen sind "echt", ich habe sie vorher nicht manuell gefunden, und sie summieren sich und haben Nanochat tatsächlich verbessert. Unter den größeren Dingen z.B.: - Er bemerkte ein Versäumnis, dass mein parameterloses QKnorm keinen Skalierungsfaktor hatte, sodass meine Aufmerksamkeit zu diffus war. Der Agent fand Multiplikatoren, um sie zu schärfen, was auf zukünftige Arbeiten hinweist. - Er stellte fest, dass die Value Embeddings wirklich Regularisierung mögen und ich keine anwendete (ups). - Er fand heraus, dass meine banded attention zu konservativ war (ich habe vergessen, sie abzustimmen). - Er stellte fest, dass die AdamW-Betas alle durcheinander waren. - Er stimmte den Gewichtungsabfallzeitplan ab. - Er stimmte die Netzwerkinitialisierung ab. Das ist zusätzlich zu all dem Tuning, das ich bereits über einen längeren Zeitraum durchgeführt habe. Der genaue Commit ist hier, aus dieser "Runde 1" des Autoresearch. Ich werde "Runde 2" starten, und parallel schaue ich, wie mehrere Agenten zusammenarbeiten können, um Parallelität freizuschalten. Alle LLM-Frontier-Labore werden dies tun. Es ist der letzte Bosskampf. Es ist natürlich viel komplexer im großen Maßstab - man hat nicht einfach eine einzelne train.py-Datei, die man abstimmen kann. Aber es zu tun ist "einfach Ingenieurwesen" und es wird funktionieren. Man startet einen Schwarm von Agenten, lässt sie zusammenarbeiten, um kleinere Modelle abzustimmen, fördert die vielversprechendsten Ideen auf zunehmend größere Maßstäbe und Menschen (optional) tragen an den Rändern bei. Und allgemeiner gesagt, *jede* Metrik, die Ihnen wichtig ist und die vernünftig effizient zu bewerten ist (oder die effizientere Proxy-Metriken hat, wie das Training eines kleineren Netzwerks), kann von einem Agentenschwarm autoresearched werden. Es lohnt sich zu überlegen, ob Ihr Problem auch in diese Kategorie fällt.

Top

Ranking

Favoriten