Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Einführung von EvoSkill: ein Framework, das Agentenfehler analysiert und automatisch die fehlenden Fähigkeiten aufbaut, was zu einer schnellen Verbesserung bei schwierigen Benchmarks und allgemein anwendbaren Fähigkeiten über verschiedene Anwendungsfälle führt.
+12,1 % bei SealQA
+7,3 % bei OfficeQA (SOTA)
+5,3 % bei BrowseComp durch Zero-Shot-Transfer von SealQA
Mehr dazu unten 🧵

2/ Agentenfähigkeiten sind eine leistungsstarke Abstraktion zur Lösung von langfristigen Problemen, können jedoch nicht leicht skalieren.
Codierungsagenten (Claude Code, Codex, OpenHands) sind leistungsstarke universelle Problemlöser. Bei spezialisierten langfristigen Aufgaben jedoch häufen sich Fehler ohne Rückverfolgbarkeit, und das fachspezifische Wissen fehlt.
Fähigkeiten haben sich als leistungsstarke Abstraktionsmethode herausgestellt, um die Leistung von Agenten bei realen Aufgaben zu verbessern, aber die heutigen Fähigkeiten werden rigoros von Experten handgefertigt.
Wir haben einen Weg gefunden, die Entwicklung von Fähigkeiten zuverlässig zu automatisieren.
3/ EvoSkill wendet den textuellen Feedback-Abstieg auf die Entdeckung von Fähigkeiten an
Die Schleife führt drei spezialisierte Agenten aus:
1. Executor: Versucht eine Reihe von Aufgaben unter der aktuellen Fähigkeitskonfiguration
2. Proposer: Analysiert fehlgeschlagene Spuren, vergleicht eine kumulative Feedback-Historie früherer Vorschläge und identifiziert die Fähigkeitslücke mit dem größten Einfluss
3. Skill Builder: Materialisiert den Vorschlag in einen strukturierten Fähigkeitsordner (SKILL.md + Skripte + Referenzen usw… )
Eine Pareto-Frontier der Top-N-Konfigurationen regelt die Auswahl, wobei nur die Fähigkeiten, die sich bei der Validierung des Testsets verbessern, überleben.

4/ EvoSkill erreicht eine schnelle Leistung mit nur einem Bruchteil der Benchmark-Daten
Wir haben die Leistung über drei Benchmarks getestet:
1. OfficeQA (Schlussfolgerungen über große Korpora): 60,6 % → 67,9 % (+7,3 %) und erreicht SOTA über alle Systeme
2. SealQA (such-unterstützte QA): 26,6 % → 38,7 % (+12,1 %)
3. BrowseComp (offenes Web-Fakten-Suchen): 43,5 % → 48,8 % (+5,3 %); Zero-Shot-Transfer von SealQA-evolvierten Fähigkeiten, keine Modifikation
Das Ergebnis von BrowseComp stammt von Fähigkeiten, die auf SealQA (Abfrage-Reformulierung, Multi-Source-Verifizierung, strukturierte Suchpersistenz) entwickelt wurden und die Zero-Shot auf ein Benchmark mit unterschiedlichen Fragen, Schwierigkeitsverteilungen und Abrufbedingungen übertragen. Dies deutet darauf hin, dass die Optimierung auf Fähigkeiten domänenübergreifende Fähigkeiten hervorbringt, anstatt spezifisches Überanpassen an Aufgaben.

5/ Die Optimierung des Fähigkeitsniveaus ist eine bessere Abstraktion, um übertragbare Fähigkeiten modularer zu produzieren als Eingabeaufforderungen oder Code.
EvoSkill ist vollständig Open Source. Wir glauben, dass Fähigkeiten an einem kritischen Punkt sitzen, den Eingabeaufforderungen und Code nicht erreichen können – strukturiert genug, um mehrstufige Verfahren mit verzweigter Logik/Überprüfung zu kodieren, und lesbar genug, dass ein Entwickler sie inspizieren, bearbeiten und an einen anderen Agenten in einem anderen Modell weitergeben kann.
Wir setzen diese Arbeit in breiteren Bereichen (Codierung, multimodal) in Zusammenarbeit mit der Virginia Tech (@tuvllms, @noahpro99, Jaydon Bingham und @WeiyuanChen01) fort und sind offen für eine Zusammenarbeit mit der breiteren Forschungsgemeinschaft.
164
Top
Ranking
Favoriten
