Então, como suspeitávamos, o ajuste fino supervisionado era uma lobotomia. Ainda bem que deixamos essa era para trás.
Aran Komatsuzaki
Aran Komatsuzaki5 de set., 12:36
RL's Razor: RL na política esquece menos do que SFT. Mesmo com precisão correspondente, RL mostra menos esquecimento catastrófico Fator-chave: o viés de atualizações na política da RL em relação a soluções mínimas de KL Experimentos teóricos + LLM e brinquedos confirmam que RL permanece mais próximo do modelo base
11,91K