公には、XAIは「期待されるいいねをマッピングする報酬モデルを訓練した」とは言っていない> でも、明らかに原材料は揃っています。 Xは公開投稿やエンゲージメント、再投稿などのメタデータをxAIと共有してトレーニングや微調整が可能だと言っています。また、あなたのやり取り、入力、結果、さらにはGrokに対する明示的なフィードバックもモデルの改善に使えるとも書かれています。一方、GrokはリアルタイムXデータにネイティブにアクセスでき、xAIはすでに推論やツール利用に大規模な強化学習(RL)を使用していると述べています。 ですので、私の推測では、これは単一の可愛いツイート>やいいねの予測器ではなく、より複雑でおそらく強力なものだと思います。これは、オンラインの議論を事前に学習し、広がるものから学び、明示的・暗黙的なフィードバックを集め、製品指標でループを閉じるときに起こるものです。 単一の報酬モデルではありません。むしろフルスタックのオペラント条件付けのようなものです。