Tôi sẽ rất ngạc nhiên nếu Anthropic không đào tạo trên các phiên CC của bạn, nhưng không thông qua RL cơ bản, - lấy sự khác biệt cuối cùng của git - trích xuất hướng dẫn tín hiệu cao nhất từ người dùng - loại bỏ tiếng ồn và các đầu ra không mong muốn - RL điều đó Điều đó sẽ là học tập liên tục