Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Czy agenci kodowania AI mogą reprodukować opublikowane wyniki badań nauk społecznych?
W nowej pracy z @_mohsen_m, Fabrizio Gilardi i @j_a_tucker, wprowadzamy SocSci-Repro-Bench — benchmark 221 zadań reprodukcyjnych z 54 artykułów — i oceniamy dwóch nowoczesnych agentów kodowania: Claude Code i Codex.
Wyniki ujawniają zarówno niezwykłe możliwości, jak i nowe ryzyka dla nauki wspomaganej przez AI.
------------------------------------
GOAL
--------
Kluczowym celem projektowym było oddzielenie dwóch różnych problemów:
1️⃣ Czy materiały replikacyjne same w sobie są reprodukowalne?
2️⃣ Czy agenci AI mogą reprodukować wyniki, gdy materiały są wykonalne?
Aby wyizolować wydajność agenta, uwzględniliśmy tylko zadania, których wyniki były identyczne w trzech niezależnych ręcznych wykonaniach.
------------------------------------
DESIGN
--------
Agenci otrzymali:
• zanonimizowane dane + kod
• środowisko wykonawcze w piaskownicy
Musieli autonomicznie:
• zainstalować zależności
• debugować uszkodzony kod
• wykonać pipeline
• wyodrębnić żądane wyniki
Krótko mówiąc: end-to-end reprodukcja obliczeniowa.
------------------------------------
WYNIKI...

Najlepsze
Ranking
Ulubione
