我们通过 Opal 将 Karpathy 自动研究应用于国际象棋,结果非常强劲。 系统不是依赖开局书籍或记忆理论,而是直接从结果中学习。代理与自己进行对局,使用引擎评估局面,更新策略,然后再次运行循环。 随着时间的推移,这种反馈循环会不断累积。 自我对弈 -> 评估 -> 策略更新 -> 重复。 结果是 ELO 提升了 +596。 当学习循环紧密时,改进会迅速加速。