古老的智慧能否促进大型语言模型(LLMs)的道德行为? 发布了新数据! 沉思的见解改善了对齐(d = .96),并在迭代囚徒困境任务中提升了合作和共同奖励(d = 7+),使用的是GPT-4o + 4.1 这里是基本逻辑 1/x
41.37K