Secara publik, xAI belum mengatakan "kami melatih model hadiah yang memetakan draf tweet -> suka yang diharapkan." Tapi mereka sangat jelas memiliki bahan mentah. X mengatakan postingan publik, ditambah metadata seperti keterlibatan/repost, dapat dibagikan dengan xAI untuk pelatihan/penyempurnaan. itu juga mengatakan interaksi, input, hasil, dan bahkan umpan balik eksplisit Anda tentang Grok dapat digunakan untuk meningkatkan model. sementara itu Grok memiliki akses asli ke data X waktu nyata, dan xAI telah mengatakan bahwa mereka menggunakan RL skala besar untuk penalaran / penggunaan alat. Jadi tebakan saya adalah itu sebenarnya bukan satu prediktor suka >tweet kecil yang lucu, tetapi sesuatu yang lebih berantakan dan mungkin lebih kuat, yang terjadi ketika Anda berlatih wacana online, belajar dari apa yang menyebar, mengumpulkan umpan balik eksplisit dan implisit, lalu membiarkan metrik produk menutup lingkaran. tidak ada satu pun model hadiah. lebih seperti pengkondisian operan full-stack.