Voivatko tekoälykoodaajat toistaa julkaistuja yhteiskuntatieteellisiä havaintoja? Uudessa työssä @_mohsen_m:n, Fabrizio Gilardin ja @j_a_tucker:n kanssa esittelemme SocSci-Repro-Benchin — 221 toistettavuustehtävän vertailun 54 artikkelista — ja arvioimme kahta rajakoodausagenttia: Claude Codea ja Codexia. Tulokset paljastavat sekä merkittäviä kykyjä että uusia riskejä tekoälyavusteisessa tieteessä. ------------------------------------ TAVOITE -------- Keskeinen suunnittelutavoite oli erottaa kaksi erilaista ongelmaa: 1️⃣ Ovatko replikaatiomateriaalit itsessään toistettavissa? 2️⃣ Voivatko tekoälyagentit toistaa tuloksia, kun materiaalit ovat suoritettavissa? Agentin suorituskyvyn eristämiseksi sisällytimme vain tehtävät, joiden tulokset olivat identtiset kolmessa itsenäisessä manuaalisessa suorituksessa. ------------------------------------ SUUNNITTELU -------- Saaneet agentit: • anonymisoitu data + koodi • hiekkalaatikko-suoritusympäristö Heidän täytyi tehdä itsenäisesti: • asenna riippuvuuksia • virheenkorjaus rikkinäisen koodin kanssa • suorittaa putki • poimia pyydetyt tulokset Lyhyesti: kokonaisvaltainen laskennallinen toisto. ------------------------------------ TULOKSET...