EvoSkill'i tanıtıyoruz: ajan hatalarını analiz eden ve eksik becerileri otomatik olarak geliştiren, zor ölçütlerde hızlı ilerlemeler ve kullanım alanlarında genelleştirilebilir beceriler sağlayan bir çerçeve. SealQA üzerinden %12,1 OfficeQA (SOTA) üzerinden +%7,3 SealQA'dan sıfır atış transferiyle BrowseComp'ta +%5,3 Aşağıda 🧵 daha fazlasını okuyun
2/ Ajan becerileri, uzun ufuk problemlerini çözmek için güçlü bir soyutlamadır, ancak kolayca ölçeklenemez Kodlama ajanları (Claude Code, Codex, OpenHands) güçlü genel amaçlı çözücülerdir. Ancak, özel uzun ufuk görevlerinde, hatalar izlenebilirlik olmadan birikir ve alan spesifik uzmanlık yoktur. Beceriler, ajanların gerçek dünya görevlerinde performansını artırmak için güçlü bir soyutlama yöntemi olarak ortaya çıktı, ancak günümüzün becerileri uzmanlar tarafından titizlikle el işiyle hazırlanıyor. Beceri gelişimini güvenilir bir şekilde otomatikleştirmenin yolunu keşfettik.
3/ EvoSkill yetenek keşfine metinsel geri bildirim düşüşünü uygular Döngü üç uzman ajanı çalıştırır: 1. Executor: Mevcut beceri yapılandırmasında bir dizi görev dener 2. Öneri: Başarısız izleri analiz eder, önceki önerilerin birikimli geri bildirim geçmişini çapraz referanslar ve en yüksek etkili yetenek açığını belirler 3. Beceri Oluşturucu: Teklifi yapılandırılmış bir beceri klasörüne dönüştürür (SKILL.md + scriptler + referanslar vb.) Seçimi en üst-N konfigürasyonlarının Pareto sınırı yönetir; burada sadece test seti doğrulamasında gelişen beceriler hayatta kalır.
4/ EvoSkill, kıyaslama verilerinin sadece bir kısmını kullanarak hızlı performans elde eder Performansı üç kıyar ölçütte test ettik: 1. OfficeQA (büyük şirketler üzerinde akıl yürütme): %60,6 → %67,9 (+%7,3) ve tüm sistemlerde SOTA (SOTA) elde edilmesi 2. SealQA (arama destekli QA): %26,6 → %38,7 (+%12,1) 3. BrowseComp (açık web bilgi arama): %43,5 → %48,8 (+%5,3); SealQA ile evrimleşmiş becerilerden sıfır atış transferi, değişiklik yok BrowseComp sonucu, SealQA üzerinde geliştirilen becerilerden (sorgu yeniden formülasyonu, çoklu kaynak doğrulama, yapılandırılmış arama kalıcılığı) ve sıfır atışı farklı sorular, zorluk dağılımı ve geri alma koşullarıyla bir kıyasa aktaran becerilerden kaynaklandı. Bu, beceri seviyesi optimizasyonun, göreve özgü aşırı uyum yerine alan genel yetenekleri ürettiğini gösterir.
5/ Beceri düzeyinde optimizasyon, promptlardan veya koddan daha modüler aktarılabilir yetenekler üretmek için daha iyi soyutlamadır EvoSkill tamamen açık kaynaklıdır. Becerilerin, promptların ve kodun ulaşamayacağı kritik bir noktada olduğuna inanıyoruz—çok adımlı prosedürleri dallanan mantık/doğrulama ile kodlayacak kadar yapılandırılmış ve geliştiricinin farklı bir modelde başka bir ajana incelemesi, düzenlemesi ve aktarması için yeterince okunabilir. Bu çalışmayı, Virginia Tech (@tuvllms, @noahpro99, Jaydon Bingham ve @WeiyuanChen01) ile iş birliği içinde daha geniş alanlarda (kodlama, multimodal) sürdürüyoruz ve daha geniş araştırma topluluğuyla iş birliğine açığız.
172