🚨 突发新闻:普林斯顿大学开发了一种AI,它在仅仅36次对话中从几乎无用变得高度个性化。 每当你告诉AI“这错了”或因为它没有抓住要点而重复问同一个问题时,这种反应是它能收到的最有价值的反馈。 今天构建的每个AI系统都完全忽视了这一点。 普林斯顿开发了一个名为OpenClaw RL的系统来解决这个问题。 这个想法很简单:当你纠正一个AI时,它会立即从这个纠正中学习。没有工程师参与。没有重新训练。只有你正在进行的对话。 模型观察你在每次回复后的反应: > 重新提问意味着它失败了 > 顺利的回复意味着它成功了 随着时间的推移,它准确地弄清楚你想要什么并进行调整。 在他们的测试中: > 一个AI助手在仅仅36次对话中从几乎无用变得高度个性化 > 一个评分助手在仅仅24次互动后学会了写出更温暖、更详细的反馈 它仅仅通过被使用而变得更好。 > 个性化评分之前:0.17 > 经过36次对话后:0.81 > 无需重新训练,无需工程师,无需停机 > 在AI仍在与你交谈时工作 你曾经输入的每一个沮丧的“不是,我不是这个意思”都是一堂免费的课。 AI只是从未保留这些。直到现在。