Öffentlich hat xAI nicht gesagt: „Wir haben ein Belohnungsmodell trainiert, das Entwurf von Tweets -> erwartete Likes abbildet.“ Aber sie haben offensichtlich die Rohzutaten. X sagt, dass öffentliche Beiträge sowie Metadaten wie Engagement/Wiederholungen mit xAI zum Training/Fine-Tuning geteilt werden können. Es sagt auch, dass Ihre Interaktionen, Eingaben, Ergebnisse und sogar explizites Feedback zu Grok verwendet werden können, um die Modelle zu verbessern. In der Zwischenzeit hat Grok nativen Zugriff auf Echtzeitdaten von X, und xAI hat bereits gesagt, dass es großflächiges RL für das Denken/Werkzeugnutzung verwendet. Also vermute ich, dass es sich nicht um einen niedlichen kleinen Tweet->Likes-Prädiktor handelt, sondern um etwas Unordentliches und wahrscheinlich Mächtigeres, das passiert, wenn man auf dem Online-Diskurs vortrainiert, von dem lernt, was sich verbreitet, explizites und implizites Feedback sammelt und dann die Produktmetriken den Kreislauf schließen lässt. Nicht ein einzelnes Belohnungsmodell. Mehr wie vollständige operante Konditionierung.