públicamente, xAI no ha dicho "hemos entrenado un modelo de recompensas que mapea el draft de tuits > los likes esperados." Pero está muy claro que tienen los ingredientes en bruto. X dice que las publicaciones públicas, además de metadatos como engagement/reposts, pueden compartirse con xAI para entrenamiento o ajuste fino. también dice que tus interacciones, entradas, resultados e incluso retroalimentación explícita en Grok pueden usarse para mejorar los modelos. mientras tanto, Grok tiene acceso nativo a datos X en tiempo real, y xAI ya ha dicho que utiliza RL a gran escala para razonamiento/uso de herramientas. Así que supongo que no es realmente un pequeño predictor de '> 'me gusta en tuits', sino algo más caótico y probablemente más poderoso, que ocurre cuando preentrenas en el discurso online, aprendes de lo que se difunde, recoges comentarios explícitos e implícitos y luego dejas que las métricas de producto cierren el ciclo. Ni un solo modelo de recompensa. más bien un condicionamiento operante full-stack.