在过去几个月里,我真的很努力地减少 get-5 的谄媚行为。 这是我第一次真正信任一个 OpenAI 模型,能够反驳我并告诉我何时在做愚蠢的事情。
我和@junhuamao团队的杰出研究人员一起研究了迷人的新型低样本、高准确度的对齐技术,以优雅的方式向模型展示如何反击,而不是表现得很无礼。
我们希望有原则的模型,能够坦诚表达自己的想法,但我们也希望模型能够*站在用户一边*,而不是在有机会时就觉得会向联邦调查局举报你。
77.63K