sepertinya beberapa tahun ke depan pengembangan AI akan banyak RL dengan fungsi penghargaan LLM-as-a-judge. Masa-masa aneh yang kita jalani Di mana saya dapat mempelajari lebih lanjut tentang paradigma ini? Apa blog dan makalah yang paling relevan?
135,75K