Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Dari postingan @tobyordoxford.
Apakah ada bukti publik yang baik tentang seberapa luas keterampilan yang dipelajari LLM dari RL?
Misalnya, apa contoh pembelajaran transfer yang paling menarik di RL? Di mana pelatihan di lingkungan tertentu mengarah pada kemampuan yang lebih baik di beberapa domain yang sangat berbeda?
Saya tahu jawaban yang jelas di sini mungkin hanya menunjuk pada GPT 5. Bagaimanapun lebih baik dalam pemikiran umum daripada GPT 4o kemungkinan karena RL.

Teratas
Peringkat
Favorit