Olisin hyvin yllättynyt, jos Anthropic ei harjoittele CC-harjoituksissa, mutta ei perus RL:n kautta, - otetaan lopullinen git-differentiaali - saada käyttäjältä korkein signaaliohjeistus - vähentää melua ja katuttuja tuloksia - RL, että Se olisi jatkuvaa oppimista