Sarei molto sorpreso se Anthropic non stesse addestrando sui tuoi sessioni CC, ma non tramite RL di base, - prendi il diff finale di git - estrai la guida con il segnale più alto dall'utente - elimina il rumore e le uscite non desiderate - RL quello Questo sarebbe apprendimento continuo