Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Przedstawiamy EvoSkill: ramy, które analizują błędy agentów i automatycznie budują brakujące umiejętności, co prowadzi do szybkiej poprawy w trudnych benchmarkach i ogólnych umiejętności w różnych zastosowaniach.
+12,1% w SealQA
+7,3% w OfficeQA (SOTA)
+5,3% w BrowseComp dzięki transferowi zero-shot z SealQA
Przeczytaj więcej poniżej 🧵

Umiejętności agentów to potężna abstrakcja do rozwiązywania problemów długoterminowych, ale nie mogą łatwo skalować.
Agenci kodujący (Claude Code, Codex, OpenHands) to potężne uniwersalne rozwiązania. Jednak w przypadku specjalistycznych zadań długoterminowych błędy się kumulują bez możliwości śledzenia, a wiedza specjalistyczna jest nieobecna.
Umiejętności pojawiły się jako potężna metoda abstrakcji, aby poprawić wydajność agentów w zadaniach ze świata rzeczywistego, ale dzisiejsze umiejętności są rygorystycznie tworzone przez ekspertów.
Odkryliśmy sposób na niezawodne automatyzowanie rozwoju umiejętności.
3/ EvoSkill stosuje zstępujące sprzężenie zwrotne tekstowe do odkrywania umiejętności
Pętla uruchamia trzy wyspecjalizowane agenty:
1. Wykonawca: Próbuję wykonać partię zadań w ramach bieżącej konfiguracji umiejętności
2. Propozycjonista: Analizuje nieudane ślady, porównuje skumulowaną historię feedbacku wcześniejszych propozycji i identyfikuje największą lukę w zdolnościach
3. Twórca Umiejętności: Materializuje propozycję w zorganizowanym folderze umiejętności (SKILL.md + skrypty + odniesienia itp… )
Granica Pareto najlepszych konfiguracji N rządzi selekcją, gdzie tylko umiejętności, które poprawiają wyniki na zbiorze testowym, przetrwają.

4/ EvoSkill osiąga szybkie wyniki, używając tylko ułamka danych benchmarkowych
Testowaliśmy wydajność w trzech benchmarkach:
1. OfficeQA (rozumowanie na dużych zbiorach danych): 60,6% → 67,9% (+7,3%) i osiągając SOTA we wszystkich systemach
2. SealQA (QA wspomagane wyszukiwaniem): 26,6% → 38,7% (+12,1%)
3. BrowseComp (poszukiwanie faktów w otwartym internecie): 43,5% → 48,8% (+5,3%); transfer zero-shot z umiejętności rozwiniętych w SealQA, bez modyfikacji
Wynik BrowseComp wynikał z umiejętności rozwiniętych w SealQA (przekształcanie zapytań, weryfikacja z wielu źródeł, trwałość wyszukiwania strukturalnego), które transferują zero-shot do benchmarku z innymi pytaniami, rozkładem trudności i warunkami wyszukiwania. Sugeruje to, że optymalizacja na poziomie umiejętności produkuje zdolności ogólne dla domeny, a nie specyficzne dla zadania nadmierne dopasowanie.

5/ Optymalizacja poziomu umiejętności to lepsza abstrakcja do produkcji przenośnych zdolności bardziej modułowych niż podpowiedzi czy kod.
EvoSkill jest w pełni otwartym źródłem. Wierzymy, że umiejętności znajdują się w krytycznym miejscu, do którego nie mogą dotrzeć podpowiedzi i kod — wystarczająco uporządkowane, aby zakodować procedury wieloetapowe z logiką rozgałęziającą/weryfikacją, i na tyle czytelne, że programista może je przeglądać, edytować i przekazywać innemu agentowi w innym modelu.
Kontynuujemy tę pracę w szerszych dziedzinach (kodowanie, multimodalne) we współpracy z Virginia Tech (@tuvllms, @noahpro99, Jaydon Bingham i @WeiyuanChen01) i jesteśmy otwarci na współpracę z szerszą społecznością badawczą.
177
Najlepsze
Ranking
Ulubione
