Saya akan sangat terkejut jika Anthropic tidak berlatih pada sesi CC Anda, tetapi tidak melalui RL dasar, - ambil perbedaan git terakhir - mengekstrak panduan sinyal tertinggi dari pengguna - menghilangkan kebisingan dan output yang disesali - RL yang Itu akan menjadi pembelajaran berkelanjutan