AIコーディングエージェントは発表された社会科学の成果を再現できますか? @_mohsen_m、Fabrizio Gilardi、@j_a_tuckerとの新しい研究では、SocSci-Repro-Benchを導入しました。これは54本の論文から221件の再現性タスクをベンチマークしたもので、Claude CodeとCodexという2つのフロンティアコーディングエージェントを評価しました。 この結果は、AI支援科学における驚くべき能力と新たなリスクの両方を明らかにしています。 ------------------------------------ 目標 -------- 重要な設計目標は、2つの異なる問題を分離することでした。 1️Repcial材料自体は再現可能ですか? 2️そして、素材が実行可能な場合、AIエージェントは結果を再現できますか? エージェントのパフォーマンスを分離するために、出力が3つの独立した手動実行で同一のタスクのみを含めました。 ------------------------------------ 設計 -------- 受領したエージェント: ・匿名化されたデータ+コード ・サンドボックス型実行環境 彼らは自律的に: • インストール依存関係 ・壊れたコードのデバッグ ・パイプラインの実行 • 要求された結果を抽出する 要するに、エンドツーエンドの計算再現です。 ------------------------------------ 結果...