提到“持续学习”作为一个问题的每个人,通常只是谈论样本效率。 显然,你应该通过不断将轨迹训练回模型来“持续学习”! 没有什么神秘的:这在样本效率低的情况下根本行不通。
77.71K