当一个大型语言模型报告它修复了41个失败测试中的37个(提高了90%)并询问接下来该做什么时,这种满足感和深深的奇怪感是存在的,并且它正确地理解了“继续前进!”
18.83K