pubblicamente, xAI non ha detto "abbiamo addestrato un modello di ricompensa che mappa la bozza del tweet -> i like attesi." ma hanno ovviamente gli ingredienti grezzi. X afferma che i post pubblici, insieme a metadati come engagement/ripubblicazioni, possono essere condivisi con xAI per l'addestramento/ottimizzazione. afferma anche che le tue interazioni, input, risultati e persino feedback espliciti su Grok possono essere utilizzati per migliorare i modelli. nel frattempo, Grok ha accesso nativo ai dati in tempo reale di X, e xAI ha già detto che utilizza RL su larga scala per il ragionamento/l'uso degli strumenti. quindi la mia ipotesi è che non si tratti di un semplice predittore di tweet->like, ma di qualcosa di più complesso e probabilmente più potente, che accade quando si pre-addestra sul discorso online, si impara da ciò che si diffonde, si raccolgono feedback espliciti e impliciti, e poi si lascia che le metriche del prodotto chiudano il cerchio. non un singolo modello di ricompensa. più come un condizionamento operante full-stack.