Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

0xFunky
BioMedical AI Start-up - CTO / Kaggle Competition - Master / @GooseCityDAO / Gründer @codechainAI
In den letzten Tagen habe ich wirklich viel gespürt.
"Die manuelle Erstellung von Frontend-Layouts ist im Grunde genommen vorbei."
AI + Figma ist wie ein Cheat, man findet die richtige Methode und kann fast identische Layouts zu Figma in kürzester Zeit erstellen, und das ganz ohne manuelle Arbeit, zudem kann man bidirektional bearbeiten.
Früher habe ich am meisten Zeit mit der Layout-Erstellung verbracht, meine Zwangsstörung konnte mich einen ganzen Tag lang beschäftigen, jetzt erledigt AI das in wenigen Minuten und die Genauigkeit ist unglaublich hoch...
Ich bin begeistert, in dieser Zeit zu leben.
186
Inspiriert von Karpathys autoresearch habe ich VibeHQ beigebracht, sich selbst weiterzuentwickeln, nicht nur einen einzelnen Agenten, sondern die gesamte Zusammenarbeit von Multi-Agents.
7 vollautomatische Durchläufe, null menschliches Eingreifen:
• Token-Nutzung: 7,2M → 5,7M (Spitzenwert gesenkt um 62%)
• Koordinationsprobleme reduziert (Wiederholungsarbeiten usw. ...): 4 → 0
• PM-Token-Verschwendung: -91%
Schleife: Benchmark → Kooperationsquantifizierung und LLM-Analyse von Fehlermustern → /optimize-protocol Koordinationscode neu schreiben → neu aufbauen → wiederholen.
Die KI beobachtet, wie die Agenten im Team scheitern, analysiert selbst, warum sie scheitern, und ändert dann ihren eigenen Quellcode, um die Kooperationslogik zu koordinieren, alles ohne menschliches Eingreifen, vollständig von der KI organisiert, um ihre eigene Teamdynamik zu entwickeln.
Ich habe mir einige verwandte Dinge angesehen, autoresearch optimiert automatisch das Training von Modellen, der vorherige Ralph war ein autonomer Kreislauf eines einzelnen Agenten, Gastown führt gleichzeitig 20-30 Claude-Codes zur Orchestrierung aus, hat aber keine Evolutionsfähigkeit, all das ist beeindruckend, aber letztendlich ging es auch darum, die Fähigkeiten eines einzelnen Agenten weiterzuentwickeln.
Niemand entwickelt die Zusammenarbeit im Team selbst, wie man Aufgaben verteilt, wie man Konflikte vermeidet, wie man Kontexte teilt, wie man sich gegenseitig unblockiert, genau wie in der realen Welt muss sich auch das KI-Team einspielen.
Stell dir vor, was passieren würde, wenn das weiterläuft:
• Agenten entwickeln ihre eigene Teamkultur und Arbeitsdynamik.
• Anpassung an Projekte, je nach Entwicklungsstand des Projekts wird ein 3-Personen-Team oder ein 7-Personen-Team zugeteilt.
• Je mehr Projekte gleichzeitig bearbeitet werden, desto stärker wird das Team.
• Agenten können während des Projekts neue Teamkollegen onboarden und die Arbeit automatisch neu verteilen.
Ehrlich gesagt, was letztendlich entstehen wird? Ich weiß es auch nicht, aber das ist gerade der aufregendste Teil.


Andrej Karpathy10. März, 06:28
Vor drei Tagen habe ich das Autoresearch-Tuning von Nanochat für ~2 Tage mit dem Modell depth=12 laufen lassen. Es wurden ~20 Änderungen gefunden, die den Validierungsverlust verbessert haben. Ich habe diese Änderungen gestern getestet und alle waren additiv und wurden auf größere (depth=24) Modelle übertragen. Wenn ich all diese Änderungen zusammenzähle, habe ich heute gemessen, dass die "Zeit bis zu GPT-2" auf der Rangliste von 2,02 Stunden auf 1,80 Stunden sinkt (~11% Verbesserung), das wird der neue Ranglisteneintrag sein. Ja, das sind echte Verbesserungen und sie machen einen tatsächlichen Unterschied. Ich bin leicht überrascht, dass mein erster naiver Versuch bereits so gut funktioniert hat, auf dem, was ich für ein bereits ziemlich manuell gut abgestimmtes Projekt hielt.
Das ist das erste Mal für mich, weil ich es gewohnt bin, die iterative Optimierung des Trainings von neuronalen Netzwerken manuell durchzuführen. Man entwickelt Ideen, implementiert sie, überprüft, ob sie funktionieren (besserer Validierungsverlust), entwickelt neue Ideen basierend darauf, liest einige Papers zur Inspiration usw. Das ist das Brot und Butter dessen, was ich täglich seit 2 Jahrzehnten mache. Es ist verrückt zu sehen, wie der Agent diesen gesamten Workflow von Anfang bis Ende und ganz allein durch ca. 700 Änderungen autonom durchgeführt hat. Er hat wirklich die Reihenfolge der Ergebnisse von Experimenten betrachtet und das genutzt, um die nächsten zu planen. Es ist noch keine neuartige, bahnbrechende "Forschung", aber alle Anpassungen sind "echt", ich habe sie vorher nicht manuell gefunden, und sie summieren sich und haben Nanochat tatsächlich verbessert. Unter den größeren Dingen z.B.:
- Er bemerkte ein Versäumnis, dass mein parameterloses QKnorm keinen Skalierungsfaktor hatte, sodass meine Aufmerksamkeit zu diffus war. Der Agent fand Multiplikatoren, um sie zu schärfen, was auf zukünftige Arbeiten hinweist.
- Er stellte fest, dass die Value Embeddings wirklich Regularisierung mögen und ich keine anwendete (ups).
- Er fand heraus, dass meine banded attention zu konservativ war (ich habe vergessen, sie abzustimmen).
- Er stellte fest, dass die AdamW-Betas alle durcheinander waren.
- Er stimmte den Gewichtungsabfallzeitplan ab.
- Er stimmte die Netzwerkinitialisierung ab.
Das ist zusätzlich zu all dem Tuning, das ich bereits über einen längeren Zeitraum durchgeführt habe. Der genaue Commit ist hier, aus dieser "Runde 1" des Autoresearch. Ich werde "Runde 2" starten, und parallel schaue ich, wie mehrere Agenten zusammenarbeiten können, um Parallelität freizuschalten.
Alle LLM-Frontier-Labore werden dies tun. Es ist der letzte Bosskampf. Es ist natürlich viel komplexer im großen Maßstab - man hat nicht einfach eine einzelne train.py-Datei, die man abstimmen kann. Aber es zu tun ist "einfach Ingenieurwesen" und es wird funktionieren. Man startet einen Schwarm von Agenten, lässt sie zusammenarbeiten, um kleinere Modelle abzustimmen, fördert die vielversprechendsten Ideen auf zunehmend größere Maßstäbe und Menschen (optional) tragen an den Rändern bei.
Und allgemeiner gesagt, *jede* Metrik, die Ihnen wichtig ist und die vernünftig effizient zu bewerten ist (oder die effizientere Proxy-Metriken hat, wie das Training eines kleineren Netzwerks), kann von einem Agentenschwarm autoresearched werden. Es lohnt sich zu überlegen, ob Ihr Problem auch in diese Kategorie fällt.

307
Dies ist die beste und gleichzeitig die stressigste Zeit.
Die Abonnementgebühren für AI-Tools werden jeden Monat teurer. Nachdem GPT-5.4 herausgekommen ist und ich es getestet habe, ist es tatsächlich ziemlich gut, also habe ich direkt aufgerüstet. Claude läuft definitiv auf Max 20x, und Google hat auch das Ultra-Paket abonniert, hauptsächlich um Antigravity zu nutzen, um Claude Opus 4.6 zu verwenden.
Die tägliche Entwicklungseffizienz ist jetzt völlig auf einem anderen Niveau. In den letzten Tagen habe ich mich auch darauf konzentriert, mein eigenes Multi-Agenten-Framework VibHQ zu optimieren und mit diesem Framework eine Plattform zu erstellen, die sowohl auf Mobiltelefonen als auch auf Computern funktioniert, um alle Cli Agents zu verwalten. Man kann Codex und Claude Code remote auf dem Handy nutzen, ohne eine Remote-Sitzung zu starten.
Ich habe bereits viele Project Teams damit gemacht, darunter ein PM Bot Strategieoptimierungsteam, das AI selbst plant, selbst ausführt und selbst QA macht. Jetzt entspricht dieses Framework langsam meiner Vorstellung von Multi-Agents. Als nächstes werde ich mehr Daten sammeln, um das gesamte Framework zu optimieren.
Ein-Mann-Unternehmen, das ein ganzes professionelles AI-Engineering-Team mit sich bringt.
335
Top
Ranking
Favoriten
