Nykyisten rajaseudun päättelymallien resepti on yllättävän samanlainen kuin AlphaGo:ssa: 1) Matkia suuria määriä ihmisdataa 2) Skaalapäättelylaskenta, jotta järkeillä paremmin (silloin se oli Monte Carlo Tree Search, nykyään Chain of Thought) 3) Käytä RL:ää mennäksesi jäljittelyn yli