先问GPT4一道不大不小的烧脑题。

这一段链条中断链的地方在 “小船空着返回，这不算一次过河”。什么算过河，什么不算过河，这牵涉到常识。具体说就是：

常识-1：人过河具有方向性，必须到达彼岸才算过河（成功）。

结论：从彼岸返回虽然技术上也跨越了河床，符合过河的字面意义，但因为是逆方向，不能算过河。

常识-2：过河必须有实体，无论实体是开船的还是坐船的。

结论：空着返回没有实体，不能算过河，这也是对的。

所以，“小船空着返回，这不算一次过河” 符合两个常识，是合理的。这里问题不出在算不算过河，而是出在“空着返回”的可行性上：没有实体开船，船是怎么返回的呢？加上一个预设前提就正确了：自动驾驶。但是默认是没有自动驾驶的。常识告诉我们，非默认的预设是必须显式表明的，必须作为此题的一个前提。

这里的看点是，GPT4 貌似一点就透，这悟性了得。

好像是丝丝入扣，对答如流啊。且慢。

这个加强了的提问（所谓提示词工程）有意思，就是说 prompt 写得细致的话，是会激发它加深思索的深度和逻辑性，不必经过数轮对话引导就可能绕过陷阱（当小船返回时，它需要携带至少1个人来驾驶）。但是结论却不对，那是因为它违背了常识-1，把返回也算成过河了。

咱们继续练它。

ChatGPT4 与ChatGPT3.5类似，也同样不能坚持原则，坚持真理。这其实是与人类偏好对齐工作做过头了的后果（偏好之一其实是迎合人类，礼貌顺从），而不是它的本性。

总结一下，从对话角度，ChatGPT4 的确不掉链子，你怎么引导，它怎么 follow。但从逻辑角度和常识角度，你点一下它，它貌似悟性很好，很快就改正，并顺着你的指引，进一步发挥。但这些 in context 学到的知识和逻辑并不稳定，很快就动摇了，有时候甚至颠三倒四，转眼就忘。

《AI浪潮博客目录》

发布者

立委

立委博士，多模态大模型应用咨询师。出门问问大模型团队前工程副总裁，聚焦大模型及其AIGC应用。Netbase前首席科学家10年，期间指挥研发了18种语言的理解和应用系统，鲁棒、线速，scale up to 社会媒体大数据，语义落地到舆情挖掘产品，成为美国NLP工业落地的领跑者。Cymfony前研发副总八年，曾荣获第一届问答系统第一名（TREC-8 QA Track），并赢得17个小企业创新研究的信息抽取项目（PI for 17 SBIRs）。查看立委的所有文章

【AI 浪潮：GPT-4 的上下文逻辑与常识还是不够稳固】

《AI浪潮博客目录》

发布者

立委

发表回复