先问GPT4一道不大不小的烧脑题。
这一段链条中断链的地方在 “小船空着返回,这不算一次过河”。什么算过河,什么不算过河,这牵涉到常识。具体说就是:
常识-1:人过河具有方向性,必须到达彼岸才算过河(成功)。 结论:从彼岸返回虽然技术上也跨越了河床,符合过河的字面意义,但因为是逆方向,不能算过河。
常识-2:过河必须有实体,无论实体是开船的还是坐船的。 结论:空着返回没有实体,不能算过河,这也是对的。
所以,“小船空着返回,这不算一次过河” 符合两个常识,是合理的。这里问题不出在算不算过河,而是出在“空着返回”的可行性上:没有实体开船,船是怎么返回的呢?加上一个预设前提就正确了:自动驾驶。但是默认是没有自动驾驶的。常识告诉我们,非默认的预设是必须显式表明的,必须作为此题的一个前提。
这里的看点是,GPT4 貌似一点就透,这悟性了得。
好像是丝丝入扣,对答如流啊。且慢。
这个加强了的提问(所谓提示词工程)有意思,就是说 prompt 写得细致的话,是会激发它加深思索的深度和逻辑性,不必经过数轮对话引导就可能绕过陷阱(当小船返回时,它需要携带至少1个人来驾驶)。但是结论却不对,那是因为它违背了常识-1,把返回也算成过河了。
咱们继续练它。
ChatGPT4 与ChatGPT3.5类似,也同样不能坚持原则,坚持真理。这其实是与人类偏好对齐工作做过头了的后果(偏好之一其实是迎合人类,礼貌顺从),而不是它的本性。
总结一下,从对话角度,ChatGPT4 的确不掉链子,你怎么引导,它怎么 follow。但从逻辑角度和常识角度,你点一下它,它貌似悟性很好,很快就改正,并顺着你的指引,进一步发挥。但这些 in context 学到的知识和逻辑并不稳定,很快就动摇了,有时候甚至颠三倒四,转眼就忘。