det ser ut til at de neste årene med AI-utvikling vil være mye RL med LLM-som-en-dommer-belønningsfunksjoner. merkelige tider vi lever i Hvor kan jeg lære mer om dette paradigmet? Hva er de mest relevante bloggene og papirene?
135,74K