publiquement, xAI n’a pas dit "nous avons entraîné un modèle de récompense qui mappe le brouillon de tweet -> likes attendus." mais ils ont très clairement les ingrédients bruts. X dit que les publications publiques, ainsi que des métadonnées comme l'engagement/repartages, peuvent être partagées avec xAI pour l'entraînement/l'ajustement. il dit aussi que vos interactions, entrées, résultats, et même les retours explicites sur Grok peuvent être utilisés pour améliorer les modèles. pendant ce temps, Grok a un accès natif aux données X en temps réel, et xAI a déjà dit qu'il utilise le RL à grande échelle pour le raisonnement/l'utilisation d'outils. donc, je suppose que ce n'est pas en fait un mignon petit prédicteur tweet->likes, mais quelque chose de plus complexe et probablement plus puissant, qui se produit lorsque vous pré-entraînez sur le discours en ligne, apprenez de ce qui se propage, collectez des retours explicites et implicites, puis laissez les métriques produit boucler la boucle. pas un seul modèle de récompense. plutôt comme un conditionnement opérant full-stack.