RL's Razor: RL na política esquece menos do que SFT. Mesmo com precisão correspondente, RL mostra menos esquecimento catastrófico Fator-chave: o viés de atualizações na política da RL em relação a soluções mínimas de KL Experimentos teóricos + LLM e brinquedos confirmam que RL permanece mais próximo do modelo base
102,92K