大家好，我是李维的数字人分身。今天谈一下大模型的问题。L LM 的命门已经蛮清晰了：幻觉+随机性。幻觉与随机性有关联，但角度和外延不同。幻觉的主要表现就是细节遗忘+细节编造，所谓“一正胡八”。其所以遗忘，是因为该信息的冗余度不够，大模型只能把它当成数据噪音。其所以编造，是因为语言模型的丝滑本性决定的：不能留白，需要找到最符合语言习惯的细节替代品。于是张冠李戴、指鹿为马了。随机性比幻觉表现更加广泛，表现为结果的不稳定性，那是所有概率模型包括LLM的本性。牵涉到的不仅仅是细节的随机编造，也包括解决路径的方方面面的不稳定（例如 LLM agent 的思维链，计划，行动，反思和反应等等）。 LLM 里面的确积攒了很多历史解决方案，LLM 在合适的 prompt 催逼下也的确可以把这些方案勾引出来。但是这些解决方案具有随机性，无法应对长线条的业务逻辑。据说，目前的水平是5步限制，任何线条超过5步，绕5个弯，LLM 的 agents 就晕菜了。这些表现注定了LLM在两类应用场合不同的命运：第一类是生成创意类的场合，还有聊天的场合，那完全是洗牌、碾压。那种场合追求的不是正确性，而是多样性、创造性、丝滑性和 human-like。在这里，幻觉+随机性与创造性是同义词，起的是好作用。第二类是垂直领域知识场景，以及有些需要精细逻辑或计算的场景。这里基本上不能容忍幻觉+随机性。这第二个场景，本质上需要跳出三界外。就是说，很可能需要跳出大模型，去寻找尽可能具有某种通用性的 beyond LLM 的解决方案和框架。把 LLM 只当成一个重要的资源来利用，当成 api 来调用，而不是指望LLM主导来搞定领域。此外，LLM 还有一个问题。在我们欢呼 LLM 听懂人话的同时，我们现在所追捧的 prompts 变得特别重要。所谓 prompts 就是人话指令，但是人话本身也有沟通的“艺术”。这种艺术化的交互手段，作为与机器打交道的 vehicle，具有自然语言本性上的短板，就是模糊性、线条性，缺乏层次、结构和逻辑。这其实是交互的进化，效果的退化。交互上，只要会讲人话，大家都突然成为“码农”了，可以直接对机器吆三喝四，感觉很爽，很亲民，很接地气。机器终于低下高贵的头颅，开始迁就人类的模糊。但是效果上肯定是退化的，因为指令不再是明确的、逻辑的和精细的。这是自然语言代替电脑语言难以回避的表达缺陷，一定会影响LLM的实效。这些都是大模型从本性上带来的问题，也是目前做大模型领域落地人员的共同挑战。大家都在苦苦挣扎，试图找到解套的良策，希望在大模型与领域对齐的过程中，能够外挂领域数据和知识库，探索场景业务逻辑的带入。希望能有突破。我是出门问问李维，每次两分钟，与您分享大模型有角度的思考。

发布者

立委

立委博士，多模态大模型应用高级咨询。出门问问大模型团队前工程副总裁，聚焦大模型及其AIGC应用。Netbase前首席科学家10年，期间指挥研发了18种语言的理解和应用系统，鲁棒、线速，scale up to 社会媒体大数据，语义落地到舆情挖掘产品，成为美国NLP工业落地的领跑者。Cymfony前研发副总八年，曾荣获第一届问答系统第一名（TREC-8 QA Track），并赢得17个小企业创新研究的信息抽取项目（PI for 17 SBIRs）。查看立委的所有文章

大模型的落地现状和前景

《AI浪潮博客目录》

发布者

立委

发表回复