Я був би дуже здивований, якби Anthropic не тренувався на сесіях у CC, але не через базовий RL, - візьмемо фінальний git diff - витягти найвищий сигнал від користувача - виводити шум і виходи - RL це Це буде безперервне навчання