Können KI-Coding-Agenten veröffentlichte sozialwissenschaftliche Ergebnisse reproduzieren? In einer neuen Arbeit mit @_mohsen_m, Fabrizio Gilardi und @j_a_tucker stellen wir SocSci-Repro-Bench vor – ein Benchmark von 221 Reproduzierbarkeitsaufgaben aus 54 Artikeln – und bewerten zwei fortschrittliche Coding-Agenten: Claude Code und Codex. Die Ergebnisse zeigen sowohl bemerkenswerte Fähigkeiten als auch neue Risiken für KI-unterstützte Wissenschaft. ------------------------------------ GOAL -------- Ein zentrales Designziel war die Trennung von zwei verschiedenen Problemen: 1️⃣ Sind die Replikationsmaterialien selbst reproduzierbar? 2️⃣ Können KI-Agenten Ergebnisse reproduzieren, wenn die Materialien ausführbar sind? Um die Leistung der Agenten zu isolieren, haben wir nur Aufgaben einbezogen, deren Ausgaben über drei unabhängige manuelle Ausführungen identisch waren. ------------------------------------ DESIGN -------- Die Agenten erhielten: • anonymisierte Daten + Code • eine sandboxed Ausführungsumgebung Sie mussten autonom: • Abhängigkeiten installieren • fehlerhaften Code debuggen • die Pipeline ausführen • die angeforderten Ergebnisse extrahieren Kurz gesagt: End-to-End rechnerische Reproduktion. ------------------------------------ ERGEBNISSE...