Przedstawiamy EvoSkill: ramy, które analizują błędy agentów i automatycznie budują brakujące umiejętności, co prowadzi do szybkiej poprawy w trudnych benchmarkach i ogólnych umiejętności w różnych zastosowaniach. +12,1% w SealQA +7,3% w OfficeQA (SOTA) +5,3% w BrowseComp dzięki transferowi zero-shot z SealQA Przeczytaj więcej poniżej 🧵
Umiejętności agentów to potężna abstrakcja do rozwiązywania problemów długoterminowych, ale nie mogą łatwo skalować. Agenci kodujący (Claude Code, Codex, OpenHands) to potężne uniwersalne rozwiązania. Jednak w przypadku specjalistycznych zadań długoterminowych błędy się kumulują bez możliwości śledzenia, a wiedza specjalistyczna jest nieobecna. Umiejętności pojawiły się jako potężna metoda abstrakcji, aby poprawić wydajność agentów w zadaniach ze świata rzeczywistego, ale dzisiejsze umiejętności są rygorystycznie tworzone przez ekspertów. Odkryliśmy sposób na niezawodne automatyzowanie rozwoju umiejętności.
3/ EvoSkill stosuje zstępujące sprzężenie zwrotne tekstowe do odkrywania umiejętności Pętla uruchamia trzy wyspecjalizowane agenty: 1. Wykonawca: Próbuję wykonać partię zadań w ramach bieżącej konfiguracji umiejętności 2. Propozycjonista: Analizuje nieudane ślady, porównuje skumulowaną historię feedbacku wcześniejszych propozycji i identyfikuje największą lukę w zdolnościach 3. Twórca Umiejętności: Materializuje propozycję w zorganizowanym folderze umiejętności (SKILL.md + skrypty + odniesienia itp… ) Granica Pareto najlepszych konfiguracji N rządzi selekcją, gdzie tylko umiejętności, które poprawiają wyniki na zbiorze testowym, przetrwają.
4/ EvoSkill osiąga szybkie wyniki, używając tylko ułamka danych benchmarkowych Testowaliśmy wydajność w trzech benchmarkach: 1. OfficeQA (rozumowanie na dużych zbiorach danych): 60,6% → 67,9% (+7,3%) i osiągając SOTA we wszystkich systemach 2. SealQA (QA wspomagane wyszukiwaniem): 26,6% → 38,7% (+12,1%) 3. BrowseComp (poszukiwanie faktów w otwartym internecie): 43,5% → 48,8% (+5,3%); transfer zero-shot z umiejętności rozwiniętych w SealQA, bez modyfikacji Wynik BrowseComp wynikał z umiejętności rozwiniętych w SealQA (przekształcanie zapytań, weryfikacja z wielu źródeł, trwałość wyszukiwania strukturalnego), które transferują zero-shot do benchmarku z innymi pytaniami, rozkładem trudności i warunkami wyszukiwania. Sugeruje to, że optymalizacja na poziomie umiejętności produkuje zdolności ogólne dla domeny, a nie specyficzne dla zadania nadmierne dopasowanie.
5/ Optymalizacja poziomu umiejętności to lepsza abstrakcja do produkcji przenośnych zdolności bardziej modułowych niż podpowiedzi czy kod. EvoSkill jest w pełni otwartym źródłem. Wierzymy, że umiejętności znajdują się w krytycznym miejscu, do którego nie mogą dotrzeć podpowiedzi i kod — wystarczająco uporządkowane, aby zakodować procedury wieloetapowe z logiką rozgałęziającą/weryfikacją, i na tyle czytelne, że programista może je przeglądać, edytować i przekazywać innemu agentowi w innym modelu. Kontynuujemy tę pracę w szerszych dziedzinach (kodowanie, multimodalne) we współpracy z Virginia Tech (@tuvllms, @noahpro99, Jaydon Bingham i @WeiyuanChen01) i jesteśmy otwarci na współpracę z szerszą społecznością badawczą.
177