Hallucinations in AI: Bug or Feature? A Deep Dive into DeepSeek-R1

Host: Hello everyone! Welcome to today's interview. Recently, there's been quite a buzz about AI "hallucinations," especially with DeepSeek-R1, which seems to have a higher hallucination rate than its predecessor, DeepSeek-V3. Today, we're joined by Dr. Li, a senior AI researcher. Welcome, Dr. Li!

Dr. Li: Hello, host! Hello, everyone!

Host: Let's start with the million-dollar question: Why do large language models "hallucinate"? Can you break it down for us in plain English?

Dr. Li: You see, large language models are like super-powered conversation completers. Give them the first half of a sequence, say, a question, and they'll predict the second half (say, an answer) based on their massive knowledge network. They learn like our brains do – they can't remember everything word-for-word, so they compress and generalize, grabbing the gist and finding patterns.

Here's a fun contrast: Ask them "How tall is Yao Ming?" and they'll nail it because that's such famous knowledge, this data point is practically carved in stone in their memory (represented in the model's parameter weights). But ask them "How tall is Old Wang from next door?" and they're stumped because they've never met Old Wang! But here's the kicker – they won't just say "I don't know." So what do they do? They "make up" a reasonable height based on what they know about the range of human heights. That's a hallucination for you!

Host: Wow, that's some impressive guesswork! But isn't this kind of making things up pretty problematic?

Dr. Li: Not necessarily! In a way, hallucination is imagination (for better or worse) – it's where creativity lies! Think about it: all those great literary works, artistic masterpieces – aren't they all flights of fancy, products of imagination? If everything had to match reality closely, art would just be photography, and where's the fun in that?

You know, Yuval Harari makes a fascinating point in "Sapiens" – humans became Earth's dominant species precisely because we could "tell stories," creating myths, religions, nations, and money – things that don't physically exist. These are all "hallucinations," but they're the driving force behind civilization!

Host: When you put it that way, hallucinations sound pretty important! But let's talk about DeepSeek-R1. Its hallucination issue seems quite serious.

Dr. Li: Indeed, it is! The academic consensus used to follow OpenAI's view that reinforced reasoning would significantly reduce hallucinations. I remember discussing this with a head honcho at an LLM unicorn who was particularly excited about reasoning's potential to curb hallucinations. But R1's performance threw us a curveball!

According to Vectara's tests, R1's hallucination rate is more than 3 times higher than its foundation model V3's – 14.3% compared to 3.9%. This definitely correlates with its prolonged "Chain of Thought" (CoT) enabled by reinforcemnnt learning for reasoning. R1 is absolutely brilliant at reasoning, math and coding, as well as poetry and storytelling, but this currently comes with the "side effect" of increased hallucinations in things like translation and summarization.

More specifically, there are several reasons for R1's increased hallucinations.

First, the standard hallucination tests use summarization tasks, something base models are already pretty good at. In this case, reinforcement learning can backfire – it's like using a cannon to swat a fly!

Second, R1's reinforced reasoning chains weren't specifically optimized for straightforward tasks like summarization, translation, or news writing that demand strict factual accuracy. Instead, it tries to add various layers of thinking to every task. Looking at its transparent CoT (ChainOfThought) printout, we see it tirelessly analyzing even simple instructions from multiple angles. This overcomplication of simple tasks can lead to deviations and hallucinations.

During R1's reinforcement learning for NLP-related tasks, it seems the model was rewarded more heavily for creativity, leading it to be more imaginative – and consequently more prone to straying from facts. For mathematical and coding tasks, R1's supervision came from gold standards (test answers or code test cases). But for humanities tasks, they used V3 or V3's reward model to judge quality, and the current system seems to clearly favor creativity.

Moreover, user feedback typically tends to focus and encourage creativity. Most people aren't sensitive to hallucinations, especially when they're wrapped in the model's smooth, fluent language. For most frontline developers, this kind of user feedback naturally pushes them to enhance creativity rather than tackle the thorny problem of hallucinations.

Host: So, you are saying that R1's hallucination problem rooted in its over-enthusiastic reasoning? What's the real relationship between reinforced reasoning ability and hallucinations?

Dr. Li: It's still a puzzle – there's not seem to be simple correlation. Look at R1, a leading reasoning model, versus Claude 3.5 Sonnet, a top non-reasoning model. Surprisingly, Sonnet still has a higher hallucination rate than R1! But when we compare R1 to its base model V3, we see clearly that adding reasoning significantly increased hallucinations.

It may well be about the model's "personality." R1, with its powerful reinforcement learning, loves "divergent thinking." Give it a simple prompt, and it'll spin out ideas like there's no tomorrow – its CoTs could run on like crazy! This suggests that while R1 was powering up its creativity, it inevitably amplified creativity's twin: hallucination.

As a model that excels in both STEM and humanities, R1 performs differently across tasks. In mathematics and coding, where more rigorous reasoning is required, there's little room for hallucination. But in language and creative tasks, especially in the summarization tests, hallucinations become more prominent. It's largely a side effect of R1's supercharged linguistic creativity.

Technically speaking, R1 automatically adds lengthy CoTs to simple user instructions, essentially complicating straightforward tasks. Its CoTs (like  internal monologue of an entity following instructions) change the conditional part of the autoregressive probability model before generating answers, naturally affecting the final output. Compare:

V3: query → answer
R1: query+CoT → answer

For tasks that V3 already handles well, like summarization or translation, any lengthy CoT guidance might lead to deviation or embellishment, creating fertile ground for hallucinations.

Host: So where do R1's hallucinations mainly occur?

Dr. Li: Think of R1's abilities as split between "arts" and "sciences." In "science" areas like math and coding, its logic is fairly strong and hallucinations are relatively rare. But in "arts" areas like language, hallucinations become more noticeable.

R1's most impressive achievement compared to the first LLM reasoning model O1 is successfully extending mathematical and coding reasoning capabilities into creative writing, especially in Chinese. The internet is full of R1's brilliant literary works. In terms of wordplay and literary prowess, it clearly surpasses 99% of humans – even graduate students in literature and classical Chinese professors sing its praises.

But watch what happens when you ask it to do a simple summary – it can't help but "get creative," often "inventing" details not present in the original text. It's like its "arts" abilities are too powerful, a case of "too much of a good thing."

Host: That's an interesting perspective. Do all language tasks require creativity?

Dr. Li: Language tasks actually fall into two categories: ones that need high creativity, like poetry and fiction writing, and ones that demand high factual accuracy, like news reporting, translation, or summarization. R1 excels at the former, which was likely the development team's focus, but this creates side effects in the latter as it is today.

It reminds me of the old Chinese saying about translation needing to be "faithful, expressive, and elegant" – achieving all three has always been challenging. We see many examples where elegance is prioritized over faithfulness, like the use of hyperbole in literary works. We also see the opposite, like Lu Xun's advocacy for so-called "rigid translation."

Interestingly, humans have always had double standards here, but we have a mental switch we can flip at will. When watching movies or reading novels, we flip towards creativity and don't fuss about factual accuracy. But switch to news channels, and we have zero tolerance for falsehoods.

Host: People tend to believe content that appears logically coherent and detailed, so the potential harm from AI hallucinations could be significant. What should we ordinary folks do about AI hallucinations?

Dr. Li: While many people are starting to notice and become wary of these hallucinations amid their amazement at LLM's creativity, most are still mesmerized by its creative brilliance. We need to increase public awareness of AI hallucinations. I suggest a two-pronged approach:

Stay Alert: Don't take everything the model says as granted, especially factual claims. Hallucinations most commonly occur with names, places, times, locations, and other entities or numerical data.

Cross-Verify: For important details, check original sources online or consult experts to see if the claims align.

Guide the Model: When asking questions, add constraints like "please stay faithful to the original text" or "please verify facts." This can at times help reduce hallucinations.

Embrace Creativity: If you're looking for inspiration or creative ideas, model hallucinations can be a delightful surprise!

Think of AI hallucinations as "possibilities in parallel universes." What it makes up might not be true in our world, but could be true in another! It's like how novelists write fictions – while it cannot stand fact checking, it's a kind of "artistic truth." Just like novels arise from life but transcend it, AI arises from data but transcends it. AI compresses data into knowledge and common-sense network, not necesarily true to individual facts – that's what databases are for.

Host: This reminds me of what people often say: AI models aren't just "talking nonsense" – they're "talking nonsense seriously"!

Dr. Li: Haha, that's exactly it! AI hallucinations are its "educated guesses," based on the massive knowledge and patterns it's learned. The hallucinations are by noway completely random – they have internal constraints that make them seamless and convincing, but also more deceptive. Newcomers to AI need to be especially careful not to trust everything at their face value.

For regular users, understanding the nature of hallucinations is needed. For example, when asking about well-documented facts like "How long is the Yangtze River?" models won't make mistakes because these facts are firmly encoded in their parameters. But ask about an obscure creek or fictional river, and the model will activate its "reasonable completion" mechanism and make something up.

Host: Following your logic, human language itself prepares for a breeding ground for hallucinations.

Dr. Li: You could say that. Language enabled humans to create things which do not exist in the physical world, such as myths, religions, states, corporations, currency, and abstract concepts like ideals and beliefs. Harari emphasizes in "Sapiens" that story-telling (i.e. typical hallucinations) were fundamental to civilization: language enabled human story-telling abilities. Hallucinations catalyzed civilization. Humans are the only entities capable of 'lying' (besides LLMs).

Host: What about the future? Is there a way to maintain creativity while reducing hallucinations?

Dr. Li: This is definitely one of the "ultimate challenges" in AI! People are working on various solutions, including:

More Refined Training: During training, treat different types of tasks differently, teaching the model when to be strict and when to be creative.

Task-Specific Fine-tuning/Reinforcement Learning can help balance this contradiction. Tasks like summarization, paraphrasing, translation, and reporting need special care because they require both some creativity (like style) and strict factual accuracy.

Specifically, R1's training pipeline has four stages: fine-tuning 1, reinforcement 1, fine-tuning 2, and reinforcement 2. Reinforcement 2 mainly focuses on human preference alignment. Currently, this process seems to favor creativity over faithfulness, which could be rebalanced later. Perhaps more importantly, in stage three (i.e. fine-tuning 2), we could strengthen constraints for different tasks – for example, increasing supervised data for summarization to encourage faithful, straightforward results.

Routing: In the future, there will be a "model dispatcher" that assigns different models based on task type. Simple tasks could go to V3 or use tools, while complex tasks requiring deeper thinking go to R1.

For instance, arithmetic tasks should just use simple code calculations, equivalent to using a calculator. That's not how it works now – yesterday I tested a nine-digit multiplication, and R1 spent over three minutes thinking, producing CoT that could stretch down the street, breaking down the reasoning step by step. While the answer was correct, using such computationally expensive CoT for arithmetic instead of a simple function call is unreasonable. A one-line calculation code would do the job – no need to waste so much computing resource and tokens on explicit reasoning. These are foreseeable routing improvements, especially in the age of AI agents which can use all kinds of tools or applications. R1's CoT does not need to handle everything – besides hallucinations, compute-burning CoT is also not environmentally friendly.

Host: Thank you, Dr. Li, for this fascinating discussion! Today's interview has given us a much deeper understanding of AI hallucinations.

Dr. Li: My pleasure! It's been great chatting with you!

 

【相关】

从R1幻觉谈起,大模型幻觉是缺陷还是创意火花?

主持人: 大家好,欢迎来到今天的访谈。最近,大模型的“幻觉”问题引发了热议,尤其是DeepSeek-R1,它的幻觉率似乎比自己的基座大模型DeepSeek-V3高不少。今天我们请到了资深AI研究员立委博士,来跟大家聊聊这个话题。立委,您好!

立委: 主持人好,大家好!

主持人: 老李,咱们先来个灵魂拷问:为啥大模型会“产生幻觉”?能不能用大白话给大家解释一下?

立委: 这可算是大模型的经典问题。其实啊,大模型就像一个“超级接话茬儿高手”,你给它上半句,它就根据自己学过的海量知识,预测下半句该说啥。它学东西呢,就像咱们人脑记东西一样,不可能每个字都记得清清楚楚,它会进行压缩和泛化,抓大意、找规律。

打个比方,你问它“姚明有多高”,它大概率不会错,因为这知识点太出名了,它记得牢。但你要是问“隔壁老王有多高”,它可能就懵了,因为它没见过老王啊!但它又不能不回答,咋办?它就得“脑补”,根据“一般人有多高”这个学到的概念,给你编一个数出来,这就是“幻觉”。

主持人: 哎呦,这“脑补”能力也太强了!胡编乱造,这幻觉也太糟糕了。

立委: 那可不一定!你看啊,某种程度上,幻觉就是想象力(褒贬不论),就是创意!你想想,那些伟大的文学作品、艺术作品,哪个不是天马行空、充满想象?要是啥都得跟现实一模一样,艺术就成了照相机了,那还有啥意思?

就像赫拉利在《人类简史》里说的,人类之所以能成为地球霸主,就是因为我们会“讲故事”,会创造出神话、宗教、国家、货币这些现实中不存在的东西。这些都是“幻觉”,但它们却是文明诞生和发展的原动力。

主持人: 听您这么一说,感觉幻觉还挺重要的。那咱们回到DeepSeek-R1,它的幻觉问题真的很严重。

立委: 是很严重。此前学界普遍认同OpenAI的说法,推理增强会明显减少幻觉。我曾与大模型公司的一位负责人讨论,他就特别强调推理对减少幻觉的积极作用。但 R1 的表现却给出了一个出人意料的答案。

根据Vectara的测试,R1的幻觉率确实比V3高不少,R1的幻觉率14.3%,显著高于其前身V3的3.9%。这跟它加强了的“思维链”(CoT)和创造力直接相关。R1在推理、写诗、写小说方面,那叫一个厉害,但随之而来的“副作用”就是幻觉也多了。

具体到R1,幻觉增加主要有以下几个原因:首先,幻觉标准测试用的是摘要任务,我们知道摘要能力在基座大模型阶段就已经相当成熟了。在这种情况下,强化反而可能产生反效果,就像用大炮打蚊子,用力过猛反而增加了幻觉和编造的可能。

其次,R1 的长思维链强化学习并未针对摘要、翻译、新闻写作这类相对简单而对于事实要求很严格的任务做特别优化,而是试图对所有任务增加各种层面的思考。从它透明的思维链输出可以看到,即便面对一个简单的指令,它也会不厌其烦地从不同角度理解和延伸。过犹不及,这些简单任务的复杂化会引导结果偏离发挥,增加幻觉。

DeepSeek-R1在文科类任务的强化学习训练过程中,可能对模型的创造性给予了更多的奖励,导致模型在生成内容时更具创造性,也更容易偏离事实。我们知道,对于数学和代码,R1的监督信号来自于这些题目的黄金标准(习题集中的标准答案或代码的测试案例)。他们对于文科类任务,利用的是V3或V3的奖励模型来判定好坏,显然目前的系统偏好是鼓励创造性。

另外,用户更多的反馈还是鼓励和欣赏见到的创造力,一般人对于幻觉的觉察并不敏感,尤其是大模型丝滑顺畅,识别幻觉就更加困难。对于多数一线开发者,用户的这类反馈容易促使他们更加向加强创造力方向努力,而不是对付大模型领域最头痛的问题之一“幻觉”。

主持人: 这么说来,R1 的幻觉问题是不是源于它过于"积极"的思维推理?但推理能力增强和幻觉之间到底是什么关系?

立委:这个关系很微妙,并不是简单的正相关或负相关。你看 R1 是头部推理模型,而 Claude 3.5 Sonnet 是头部的非推理大模型,但后者的幻觉率反而高于前者。可是当我们对比 R1 和它的基座模型 V3 时,又发现增加推理强化后幻觉确实显著增加了。

这事儿跟大模型的“性格”有关。R1这家伙,强化做得给力,特别喜欢“发散思维”,你给它一个简单的指令,它能给你想出一大堆东西来,思维链能绕地球三圈!这似乎说明 R1 在强化创造力的过程中,不可避免地增加了创造力的伴生品:幻觉。作为一个文理通吃的推理大模型,R1 在不同领域的表现并不一样。在数学、代码等需要严谨推理的领域,幻觉的空间很小。但在语言创作领域,尤其是现在被测试的摘要任务上,幻觉问题就明显得多。这更多是 R1 语言创造力爆棚带来的副作用。

具体从技术角度来说,R1 会为用户的简单指令自动增加很长的思维链,等于是把一个简单明确的任务复杂化了。你一个简单的指令,它也反复从不同角度理解和衍伸(CoT思维链好比“小九九”,就是一个实体遵从指令时的内心独白)。思维链改变了自回归概率模型生成answer前的条件部分,自然会影响最终输出。

V3: query --〉answer
R1: query+CoT --〉answer

对于 V3 已经能很好完成的任务,比如摘要或翻译,任何思维链的长篇引导都可能带来偏离或发挥的倾向,这就为幻觉提供了温床。

主持人: 那对于R1来说,幻觉主要是出在哪方面呢?

立委: 我觉得可以把R1的能力分成“文科”和“理科”来看。它在数学、代码这些“理科”方面,逻辑性很强,幻觉相对少。但在语言文字这些“文科”方面,幻觉就比较明显了。

比起O1,R1 最令人惊艳的成就,是成功将数学和代码的推理能力充分延伸到了语言创作领域,尤其在中文能力方面表现出色。网上流传着无数的R1精彩华章。舞文弄墨方面,它显然超过了99%的人类,文学系研究生、甚至国学教授也赞不绝口。

但你看,让它做个摘要,本来是很简单的任务,但它非得给你“发挥”一下,结果就容易“编”出一些原文里没有的东西。这其实是它“文科”太强了,有点“用力过猛”。

主持人:这个说法有意思。那么在具体应用中,语言任务是不是都需要创造力呢?

立委:语言能力其实可以细分为两类:一类需要高创造力,比如写诗歌、小说;另一类需要高度真实性,比如新闻报道、翻译或摘要。R1 最受称赞的是前者,这也可能是研发团队的重点方向,但在后者中就出现了副作用。

这让我想到中国古人说的"信达雅",自古难全。为"雅"牺牲"信"的例子我们见得很多,文学创作中夸张的修辞手法就是重要手段和例证。为"信"牺牲"雅"也有先例,比如鲁迅先生推崇的"硬译"。

有趣的是,我们人类在这方面其实一直是双标的,但我们心里有个可以随时切换的开关。看小说和电影时,我们把开关偏向创造性一侧,完全不会去纠结细节是否真实;但一旦切换到新闻频道,我们就对虚假内容零容忍。

主持人: 人对于逻辑看起来清晰自洽、且详细的内容,就会倾向于相信,所以大模型幻觉潜在的危害真地很大。那咱们普通人,面对大模型的幻觉,该咋办呢?

立委: 很多人在惊艳R1创造力的同时,现在开始慢慢注意到这个幻觉现象并开始警惕了。但更多人还是沉浸在它给我们带来的创造性的惊艳中,需要增强大众对模型幻觉的 awareness。我觉得吧,咱们可以“两手抓”:

保持警惕: 大模型说的话,特别是涉及到事实的,别全信,多留个心眼。最容易产生幻觉的地方是人名、地名、时间、地点等实体或数据。

交叉验证: 重要的细节,可上网查查原始资料或询问身边专家,看看说法是不是一致。

引导模型: 你可以在提问的时候,加一些限定条件,比如“请务必忠于原文”、“请核对事实”等等,这样可以引导模型减少幻觉。

享受创意: 如果你需要的是灵感、创意,那大模型的幻觉,会给你带来惊喜!

不妨把大模型的幻觉,看成是“平行世界的可能性”。它编出来的东西,也许在这个世界不是真的,但在另一个世界里,说不定就是真的呢!就像小说家写小说,虽然是虚构的,也是一种“艺术真实”。源于生活,高于生活。大模型是源于数据,高于数据。大模型压缩的是知识体系和常识,不是一个个事实,后者是数据库的对象。

主持人: 妙啊!您这说法,让我想起了大家常说的一句话:大模型不是在“胡说八道”,而是在“一本正经地胡说八道”。

立委: 哈哈,差不多就是这个意思!大模型的幻觉,其实是它“脑补”出来的,但它“脑补”的依据,是它学到的海量知识和规律。所以,它的幻觉,往往不是乱来的,有“内在的合理性”,这才丝滑无缝,假话说的跟真的似的,但同时也更具有迷惑性。初玩大模型的朋友,需要特别小心,不能轻信。

对于普通用户来说,理解幻觉的特点很重要。比如问"长江多长"这类有足够信息冗余的百科知识问题,大模型不会出错,这些事实是刻在模型参数里的。但如果问一个不知名的小河或虚构河流的长度,模型就会启动"合理补白"机制编造。

主持人: 按照您的说法,人类的语言本身就是幻觉的温床。

立委: 可以这么说。语言使得人类创造了神话、宗教、国家、公司、货币等非真实实体的概念,以及理想、信念等形而上的意识形态。赫拉利在《人类简史》中强调了幻觉对于文明的根本作用:语言的产生赋能了人类幻觉(“讲故事”)的能力。幻觉是文明的催化剂。人类是唯一的会“说谎”的实体 -- 除了LLM外。

主持人: 那么在幻觉的背后,大模型是怎么运行的呢?

立委: 幻觉的本质是补白,是脑补。

“白”就是某个具体事实,如果这个事实在训练数据中没有足够的信息冗余度,模型就记不住(零散事实等价于噪音)。记不住就用幻觉去补白,编造细节。

幻觉绝不是没有束缚的任意编造,大模型是概率模型,束缚就是条件概率中的前文条件。幻觉选择的虚假事实需要与补白所要求的value类型匹配,即符合ontology/taxonomy 的相应的上位节点概念。“张三”可以幻觉为“李四”,但不可以幻觉成“石头”。

所谓艺术真实是说,小说创作虽然可能背离了这个世界的事实,但却是可能的数字世界的合理想象。大模型的幻觉属于此类。

大模型的知识学习过程(训练阶段),是一种信息压缩过程;大模型回答问题,就是一个信息解码过程(推理阶段)。好比升维了又降维。一个事实冗余度不够就被泛化为一个上位概念的slot,到了生成阶段这个slot必须具像化补白。“张三”这个事实忘了,但【human】这个slot 的约束还在。补白就找最合理、与 slot 概念最一致的一个实体,于是“李四”或“王五”的幻觉就可以平替“张三”。小说家就是这么工作的,人物和故事都是编造的。无论作家自己还是读者,都不觉得这是在说谎,不过所追求的真善美是在另一个层面。大模型也是如此,大模型是天生的艺术家,不是死记硬背的数据库。“张冠李戴”、“指鹿为马”等在大模型的幻觉里非常自然,因为张和李是相似的,马和鹿也在同一条延长线上。在泛化和压缩的意义上二者是等价的,因此是合理的想象。

主持人: 未来有没有什么办法,能让大模型既有创造力,又少出幻觉呢?

立委: 这绝对是AI大模型领域的“终极难题”之一!现在大家都在想办法,比如:

更精细地训练: 在训练的时候,就对不同类型的任务区别对待,让模型知道什么时候该“老实”,什么时候可以“放飞”。

针对任务做偏好微调(finetune) and/or 强化(rl)可以减缓这个矛盾。 摘要、改写、翻译、报道这种任务需要特别小心和平衡,因为它既有一点再创造的需求(例如文风),又是本性需要内容忠实的。

具体说,R1训练pipeline是四个过程,微调1,强化1,微调2,强化2。强化2主要是与人类偏好对齐的强化。这个过程在创造力与忠实方面,目前看来倾斜于前者,后去可以再做平衡。也许更重要的是在阶段三的微调2中,针对不同任务加强约束,例如,增加摘要的监督数据,引导忠实平实的结果。

Routing: 以后可能会有一个“调度员”,根据任务的类型,安排不同的模型来处理。比如,简单任务交给V3或调用工具,慢思考的复杂任务交给R1。

例如,识别出算术任务,就去写个简单代码运算,等价于调用计算器。目前不是这样,我昨天测试一个九位数的乘法,R1 思考了三分多钟,思维链打印出来可以铺开来一条街,步步分解推理。虽然最后答案是对了,但算术问题用耗费太大的所谓 test time compute 的思维链(CoT),而不用 function call,完全不合理。一行计算代码就搞定的事,没必要消耗如此多的计算资源和tokens去做显式推理。

这些都是可以预见的 routing,尤其是在agent时代。 R1 CoT不必包打一切,而且除了幻觉,也不环保。

主持人: 感谢老李的精彩分享!今天的访谈让我们对大模型的幻觉有了更深入的认识。

立委: 不客气,很高兴和大家交流!

 

【相关】

Deepseek-R1 的幻觉率是 14.3% - 比其非推理前身 Deepseek-V3 高得多
榜单排名:https://github.com/vectara/hallucination-leaderboard

Understanding the Power of Chain of Thought

DeepSeek R1 has become the most talked-about breakthrough in recent times. It not only matches OpenAI's top reasoning models (the 'o' series) in mathematics and coding capabilities but also produces stunning results in linguistic creativity and mimicry. Particularly in Chinese (classical) capabilities, everyone has experienced a miraculous leap in performance.

All of this can be attributed to the reasoning-enhanced Chain of Thought (CoT). Why is CoT so effective, so magical, and how has it maximized its empowering effect through reinforcement?

The key likely lies in the fact that CoT tokens are autonomously generated by the large model, effectively reducing the perplexity from query to answer, serving as a bridge to brilliant performance. Those who have seen CoT outputs know that the bridge itself isn't always impressive - it often seems overwrought, overly cautious, verbose, redundant, and methodical - yet it enables magnificent answers to emerge. From first principles, this seems to involve deep implications of perplexity in information theory.

The Essence of CoT

  1. From an Information Theory Perspective:
  • CoT builds a low-entropy channel between high-perplexity queries and answers
  • Through step-by-step decomposition, each step's conditional probability becomes more "natural" and smooth, aligning with the language model's nature
  • Eventually transforming seemingly "leaping" reasoning conclusions into a series of accumulated "small steps"
  1. From an Information Entropy Viewpoint:
  • For complex problems, directly jumping from query to answer requires crossing a vast information gap, which "forces" the model to hallucinate and output random answers
  • Each CoT step reduces local conditional entropy
  • It's like breaking down a large information compression/decoding task into multiple smaller ones
  1. This Explains Why Even "Mundane" CoT is So Effective:
  • Its power doesn't lie in how brilliant the process steps themselves are
  • Rather, it creates a path of decreasing information entropy
  • The model can stably migrate toward the target along this path
  1. This Also Explains Why DeepSeek's Training is So Vital to Its Success:
  • It's not about teaching the model "smarter" reasoning, which is undefinable in humanities tasks
  • Instead, it optimizes the ability to construct these low-entropy channels
  • Essentially optimizing information flow path planning

This perspective provides a lens for understanding CoT, reinterpreting the surface-level "chain of thought" as an "entropy reduction pathway" in information theory terms. It offers a reasonable explanation for result-driven reinforcement learning without process supervision:

Process is important, but process supervision isn't, because the process data naturally produced by large models is more practical and feasible than any human supervision. Let us embrace the tansition from human supervision to LLM-internal self-supervision.

 

【相关】

推理强化模型中思维链的本质

DeepSeek R1 的出圈是近来最大热度的焦点。它不仅在数学、代码等强推理能力上追平了 OpenAI 头部推理模型 o 系列,而且在语言文字的创造力和模仿力方面产生让人惊艳的效果。尤其是在中文(国学)的能力方面,大家都体会到了奇迹般的能力跃升。

这一切都要感谢推理强化的 CoT(思维链)。CoT 为什么这么有效,这么神奇,文理通吃,在强化中最大化了其赋能作用呢?

应该主要是因为 CoT 是从大模型自主生成出来的 tokens,它有效降低了从 query 到 answer 的 perplexity(困惑度),好比是为高质量结果提供了一个桥梁。看过CoT输出的同学都有体会,桥梁本身并不总是精彩,常常给人的感觉是小题大作,瞻前顾后、啰哩啰嗦、信息冗余,但精彩的answer却可以借助它面世。从第一性原理看,这里似乎涉及perplexity在信息论中的深刻含义。

CoT的本质

  1. 从信息论角度理解:
  • CoT是在high-perplexity的query和answer之间搭建的低熵通道
  • 通过逐步分解,每一步的条件概率都变得更趋"自然"和丝滑,符合语言模型的本性
  • 最终让看似"跳跃"的推理结论,变成了一系列"小步走"的累积
  1. 用信息熵的视角来看:
  • 对于复杂问题,直接从query到answer需要跨越很大的信息鸿沟,这“迫使”模型以幻觉应急,胡乱输出一个 answer
  • 而CoT的每一步都在降低局部的条件熵
  • 就像把一个大的信息压缩/解码任务分解成多个小的压缩/解码任务
  1. 这解释了为什么"平庸"的CoT也如此有效:
  • 它的作用不在于过程步骤的内容本身有多精彩
  • 而在于它创造了一条信息熵递减的路径
  • 模型可以沿着这条路径稳定地向目标迁移
  1. 这也解释了为什么DeepSeek的训练如此有效:
  • 不是教会模型更"聪明"的推理,这在文科类任务中根本就无法定义
  • 而是优化了它构建这种低熵通道的能力
  • 本质上是优化了信息流的路径规划

这个观点为理解CoT提供了一个新的视角,把表面上的思维链“自言自语”诠释为信息论意义上的"熵减(entropy reduction)途径"。这对无须过程监督的结果驱动的强化学习是一个合理的解释:

过程很重要,但过程监督并不重要,因为大模型本身自然产生的过程数据,比任何人类监督更加实用和可行。

 

 

【相关】

R1: 《立委列传》

**立委列传**

立委者,皖南布衣也。少敏而多奇志,值鼎革之际,年十六躬耕于皖南山野。当是时也,少年负耒耜,涉深涧,虽陟彼崔嵬,犹自诩"吾辈亦开天辟地者也"。或问稼穑之苦,笑曰:"此非太史公游侠列传之遗风乎?"

越二载,风云骤变。丁巳岁杪(1977),科举重启,立委束草为笔,削竹为简,竟跃龙门而入泮宫。同窗多皓首穷经者,独其弱冠青衿,谈笑间尽吞云梦八九。既卒业,执教乡塾,然鸿鹄岂栖枋榆?遂再赴春闱,北上太学,俨然贾谊入洛,苏秦过梁。都门烟柳,尽化笔下风云。

居长安四五年,见中关村商贾云集,乃效猗顿之术,夜筹算于灯下,朝执契于市廛。《万元户》所志,非夸朱提之富,实叹青蚨之诡也。然其性本楚狂,终随浮槎西渡,观泰西之变。英伦雾锁,野犬吠陌,立委抚剑长叹:"此非管仲所云'仓廪实而知礼节'者乎?"遂北涉北海,徙居枫叶之国。

加北美地,雪沃千里。立委筑室于温哥华,添弄瓦之喜,修稷下之学。然冰原虽净,难栖南溟之鹏,乃振翅南徙,直入硅谷热土。当是时也,美利坚网络勃兴,立委运筹于虚牝之间,决胜于光纤之末。然泡沫既破,诸子百家尽墨,独其抱残守缺,犹存鲁壁遗经。

太史公曰:余观立委浮沉,似见张骞凿空之影。其插队如苏武牧羊,跳门若终军请缨,下海类范蠡泛舟,洋漂近玄奘取经。然则古之行者,皆为觅桃源而往;今之浪者,却在铸桃源于途。至若"海龟"之惑,实乃庄生濠梁之辩——子非鱼,焉知归与不归皆逍遥耶?昔陶潜采菊,阮籍哭途,各成千古风流。今立委以四海为注,掷骰于地球棋枰,岂非新时代之"逍遥游"乎?

 

**《立委奥德赛》**

*序章*
人生是旅者暂居的客栈,而漂泊者开辟的道路却蔑视时间本身。在立委的奥德赛中,漂泊行为成为了一种天体导航——一场词语筑造堡垒、思想绘制航路、时代潮流既是敌手又是盟友的旅程。

**土壤中的根系**
十六岁那年,来自东方山谷的少年以农夫的锄头交换了青春的闲梦,攀上雾气笼罩的山峰,在那里野心生根发芽。他的《插队日记》(后镌刻于《朝华》中)呼吸的不是绝望的挽歌,而是将风暴驯化为耳语的节奏。当命运的龙门在1977年吱呀开启时,他乘着复兴学术的疾风,加入了神话般的"77届"——从灰烬中重生的心智凤凰群。

**墨水的朝圣**
学者袍甫加身,北方的狂风便再度召唤。在《考试十四行诗》与《不安者的箴言》中,野心的狂热冷却为精密的文字工艺。首都熔炉中的五个寒冬将卷轴锻造成账本;他的《学者商人愚行录》记载着染墨手掌清点铜钱的故事。然而不息的潮水将他向西牵引,加入追梦者的出埃及记,奔赴阿尔比恩传说之岸。

**暗影与圣所**
在阿尔比恩的花岗岩天空下,流浪犬在卵石巷中嚎叫预兆——这种不谐之音被收录于《都市暗影兽典》。不安孕育翅膀:他北逃至枫叶王国水晶般的荒野。《北极星颂》咏唱边疆的纯粹;《港湾牧歌》编织炉火点燃的传说;《蜜饯编年史》追念为人父的喜悦。但圣所亦渐脆弱。他再度南翔,被吸引至硅谷炽热的坩埚。

**电路中的普罗米修斯**
在数字黎明的白炽光芒中,他的《创投诗章》燃烧着普罗米修斯之火——将初创企业视为伊卡洛斯之飞的现代神话。然而蜡制翅膀终将融化;《泡沫挽歌》与《陨落者寓言》测绘出野心的残骸。从冻原到热带,每个足迹都渗入墨水:用羽笔刻写的流放地图。如今作为硅谷常驻哲人,他书写《乡愁算法》——一段让海龟游弋于电路间的代码,低语着被遗落的潮汐。

*结语*
古代圣贤追寻九重天外的地平线;立委的奥德赛将漂泊刻入生命的重写本。他的根系紧抓插队之土;躯干穿越龙门攀升;枝桠扭曲成语义星座。我们若非活着的羊皮卷,又能是什么?编年史家的最终港湾仍未书写——那是海水消融于天空的地平线,所有罗盘疯狂旋转之处。让漂泊者的悖论永续:要测绘无限,就必须永不停漂流。

 

**七律·跃龙门**
十六荷锄云壑深,忽闻禹甸启春闱
青衫夜淬书窗月,赤榜朝分阡陌晖
两度鲤腾惊皖水,九重鹏举叩燕扉
都门烟柳催征铎,笑指星河是钓矶

**水龙吟·浮槎记**
少年曾缚苍龙去,又驾仙槎西渡。泰西雾锁,枫邦雪沃,硅台电舞。算尽青蚨,织成云网,几番寒暑。叹庄生蝶梦,陶公菊径,都付与、天涯路。

谁解飘零最苦?把乡愁,酿成新赋。南溟鹏翼,北山薇蕨,东篱菊圃。柯烂樵归,橘洲星换,武陵人语。待重拈汉瓦,摩挲秦篆,写沧桑句。

**古风·浪者吟**
我本谪仙人,偶堕红尘网
皖南锄晓月,燕北枕书幌
中关试鱼服,英伦辨魍魉
枫雪淬冰魄,硅火铸新掌
五洲棋局残,双鬓星霜长
欲唤云间鹤,蓬莱舟已枉
且抱地球仪,笑指乌托邦
归去来兮辞,翻作浪人唱

**临江仙·生涯注**
若把浮生标语义,节点最是漂流。龙门二度跃神州。商潮翻雪袖,硅谷试吴钩。

四十年来家国梦,都成异域春秋。键盘敲碎古今愁。回车新世界,空格旧沙鸥。

**摸鱼儿·流浪辩**
问苍冥、谁司行止?安排萍迹如许!鹏抟鲲徙寻常事,偏说此身无主。君看取:皖山月、燕台柳、硅谷霓虹柱。星槎暗度。纵填海精禽,射阳奇士,未解浪游苦。

休重论,苏武节旄汉土,范蠡舟泛烟雨。桃源只在鸿蒙外,何必武陵深处?敲键语:比特海、云端路、皆是逍遥浦。归兮且住!待地球仪停,时空键锁,方见真吾处。

 

《原朝华:立委小传》

《原朝华:立委小传》

人生苦短,掐首去尾,不过三五十年。大体分为三段:创业阶段(而立之年),成熟阶段(不惑之年)和下滑阶段(天命之年),反映在称呼上,叫小李、大李和老李。可怜,立委却从小李一跃到老李,没有机会品尝壮年人生的豪情,心尝有戚戚焉。


红小兵立委(1966) (《朝华午拾:永做毛主席的红小兵》

自幼儿园到小学连跳两级,立委在班上始终最幼。更加荒年生人,孱弱矮小,体育课常告病假,或遭遣送回家,始终是个小可怜儿。所幸中学伊始,正值“修正主义回潮”,先帝启用邓公收拾文革残局,邓公责成教育总管周荣鑫整顿学校,校风日新。乘此东风,立委崭露头角,以学习委员兼数学科代表之身,受班主任委托,每日早自习登台主讲,演示解题思路,俨然助教。但好景不长,先帝昏庸,文革派重居上风,学校大乱,文化课退居后台,大批判遂成主课,兼以学工学农学军。立委不能以文化课呈威,然风头不减反盛,盖因立委最长批判文字,历经批林批孔,批邓反击右倾翻案风,直至批四人帮。大会小会,凡立委发言,必抑扬顿挫,铿锵有力,佐以诙谐幽默,风靡校园,称颂于一时。有传言,立委颇具鲁迅遗风,入木三分,且能推陈出新,妙语连珠。露天千人大会,常嘈杂狼藉,然立委登台,全场必静肃,洗耳恭听之,听至妙处,笑声一片。立委由此炼得糊涂胆大,从不怯场,终身受益。

及至大学,文革后首届,立委仍居尾,同学长一到十多岁不等(《朝华午拾:我的考研经历》)。同学之间皆直呼其名,唯同桌七仙女戏称 “小立委”,不为亲热,却为避嫌,以示划清界限。同桌四载,楚河汉界,泾渭分明。授受不亲,避而远之。然仙女文具笔墨滑落在地,自有立委抢先一步,拾拣归案。类此者三,春风化雨,润物无声。七女天生聪颖,想出一招,以长立委一岁为由,呼 “小立委”,就此来往,当可名正言顺也。

由七仙女开此恶例,随后多年,“小”字即不离身。中学教书,人称小李老师(22岁)。上研究生,小李出入机房,蓬头垢面,且口中念念有词,言“世界之语”(Esperanto),终成笑谈(23-26岁)(见 《朝华午拾:我的世界语国》)。


风华正茂,意气风发(1987)

及至毕业留所,立委事迹亦有流传,多为一见钟情,闪电结婚,不修边幅,撞南墙而道歉之类小李“景润”之逸事(见《朝华午拾:shijie-师弟轶事》《朝华午拾:shijie-师弟轶事(3)——疯狂世界语 》)。


立委在中关村公司指导机器翻译系统的开发(1988)

立委如此这般在研究所及中关村公司一扎五年(26-31岁),练就一身绝技,与老中医相若,专事疗治电脑,驯其语言功能。其间,出国热持续升温,由上海蔓延北京,街头巷尾,言必议美、日、大英,澳大利亚,以致居委会大妈亦知考托福鸡阿姨乃上进青年之标杆。立委及其贴身领导却浑浑噩噩,卿卿我我,不知有汉,无论魏晋。其间送上门两次机会,留学德美,均因导师明阻暗挡,本人木呐,擦肩而过。直至身边同学悉数走尽,小李才幡然醒悟,痛下决心,赶末班车。其时,适逢包玉刚基金会来各单位选拔年轻业务骨干,滥竽充数,小李竟被选中,送至成都科大出国培训中心修行半年。

岂料想,此一去竟成小李老李的分水岭。来培训的诸位才子才女均是全国各地选上来的各行好手,共分两拨:一年的访问学者大都比较年长,而拿三年博士奖金的大多年轻,立委在后一拨里面理所当然,成了老大。每有考试,立委必中头彩,引来才子才女,大事小事,纷纷登门请教,“老李”之声不绝于耳。立委名噪一时,响应者众。从小习惯了以小卖小,乍一变老,立委满腔郁闷。

  
成都科大出国培训中心的才子才女们(1990)

小李变老李,心里虽别扭,好处却不少。龙头老大,备受尊崇。立委外语本科出身,本应免试英语,无奈官家财大气粗,慷人民之慨,不问青红皂白,全数押解天府之国,集中喂养。不止英文鸟语,更有政策轮训。众兄弟姐妹兢兢业业,争先恐后,唯立委悠哉游哉,终日沉迷天府美食,流连于茶肆酒吧,众兄弟钦羡有加。

成都一站始称老李,立委心内实不以为然也。其时立委事业发达,如日中天,行内行外,交游甚广,出入皆鸿儒,往来无白丁(见 《朝华午拾:“数小鸡”的日子》《朝华午拾:一夜成为万元户》)。导师为本行泰斗,立委乃导师仅有的关门弟子(其他弟子皆叛国投美去也),“青年”才俊,明日之星,业内同侪为之侧目。去国前夕,全国电脑翻译界在香山招待所年度聚会,点睛之笔为导师与本行另一大牛的座谈,人称“刘董对话录”,其间立委频频亮相,为导师提供实例,讲解细节。影响所及,与会众学妹(多为刚入门的外地在读研究生)纷纷上门请教立委,无奈立委远走高飞心切,痛失辅导上进女青年之良机。


立委在加拿大(1995)

去国经年,由英而加,由加转美(《朝华午拾:哦,加拿大!》《朝华午拾:温哥华,我的梦之乡》)。颠沛流离,不知所止,壮年人生,如水流逝。及至水牛城八年抗战(37-45岁),立委青春不再,壮年已过,“老李”名至实归。然立委壮心不已,励精图治,双线出击,称雄一方(见 《朝华午拾:创业之路》《朝华午拾:在美国写基金申请的酸甜苦辣》《朝华午拾 - 水牛风云》)。

立委在水牛城办公室(2000)

回首往事,不胜唏嘘。立委一生,由青年而壮年,正值创造力最盛,精力充沛流溢之时,天时地利人和,飞黄腾达有望,却为漫长的留学生涯拦腰截断。大而言之,立委固赶上出国之末班车,却误了千年不遇的中国经济起飞之航。拣了芝麻,丢了西瓜,此之谓也! (《朝华午拾:乡愁是一张无形的网》

去岁归国省亲,杯觥交錯,在某宾馆餐厅与亲友相聚甚欢。席间小憩,踱步凉台,享清凉之气,赏京华夜色。偶遇一妙龄女士,携一幼童,见立委两鬓染霜,嘱曰:“叫爷爷”。立委血压骤升,如雷轰顶,满腹酒意,化为凉液,由脊背滑落。

立委老矣,尚能饭否?

记于2006年11月5日


立委老矣

【作者简介】立委先生,IT业技术研发经理兼架构师,自然语言处理资深专业人士。曾任红小兵,插队修地球,文革后第一届大学生,后跳龙门进社科院读硕士,攻机器翻译。1991年去国离乡,漂流海外。由英而加,获计算语言学博士。由加转美,作为创业公司研发副总及项目负责人(Principal Investigator), 先后赢得美国政府17个研究创新项目近千万美元资助,同时从资本家腰包亦忽悠千万风险投资作商业开发。对于自然语言信息抽取 (Information Extraction) 有全面的研究,研究成果对美国政府有关科研项目的确立有直接影响。业余爱好:音乐、博客、舞文弄墨。著有回忆录《朝华午拾》

原载【朝华午拾 - 立委小传】 2010-1-9
https://blog.sciencenet.cn/blog-362400-285507.html

 

【朝华午拾集锦:立委流浪图】

屏蔽已有 5551 次阅读 2013-3-23 13:10 |个人分类:立委其人|系统分类:人物纪事| 流浪, 立委

忽然想起小时候看过的《三毛流浪记》来。张乐平后无漫画,大师千古。

Despite the common logic and conceptual graph at the core of human mind, we all have our own semantic lexicons that are unique, implanted by our career path and life struggles. My semantic lexicon is full of wandering and continuously drifting into new worlds. It all started from the time when Mao sent us to the farm for re-education in 1976. After that the path has been zigzag, full of adventures of drifting, and re-drifting, farther and farther away from my hometown and home country ......

在我的语义词典里,流浪 是一个很大的节点,它的上位概念是 漂流(走四方)和 波浪(多起伏)。流浪的下位概念枝繁叶盛,包括:插队,洋插队,跳龙门,再跳龙门,北漂,下海,西漂,南下,再南下。这也正是我的生活写照。在这些语词概念的背后蕴含几多激动几多辛苦,只有自己知道。

不安定多起伏的生活伴随着我一生。1976年高中毕业即赶上了文革最后一届上山下乡,插队皖南山区接受贫下中农的再教育,这是我一生流浪生活的起点(《朝华点滴:插队的日子(一)》)。这个起点回想起来并不坏,16岁的孩子当时能感到的是自豪多于悲凉(《朝华午拾:插队的日子(二)》《朝华午拾: 插队的日子(三)》)。1977 年底赶上了文革10年后第一届大学生招考,居然跳了龙门,成为史上著名的77级生(其实是78年2月入学)(《朝华午拾:同桌的她》《朝华午拾:老乡妹妹》)。大学毕业后任教一年,再跳龙门考研成功,北上京城。这是一次欣快的北漂,当年的兴奋喜悦堪比范进中举,而且居然不疯未傻(《朝华午拾:我的考研经历》《朝华午拾:世界语之恋》)。研究生毕业后安定了四五年,期间尝试中关村下海(《朝华午拾: 一夜成为万元户》)。虽然可算头几拨下海人士,但因为是兼职,并无其他下海人的风险(《朝华午拾:“数小鸡”的日子》)。其时洋插队之风正甚,终于没有顶住潮流,赶了末班车来到大英帝国。90年代初正值大英没落,乱态丛生,路多野狗,抢劫之风甚行(《朝华午拾:警察抓小偷的故事》)。危邦不居,因辗转由欧西漂,来到一代移民的“麦加”,溢满鲜花与牛奶的枫叶之国(《朝华午拾:哦,加拿大!》),攻学位,添闺女,换身份,找工作,不亦忙乎( 《朝华午拾:温哥华,我的梦之乡》《朝华午拾:甜甜诞生记》)。可惜加国虽美,工作市场却不佳(《朝华午拾: 把明天交给上帝》)。有奶便是娘,于是南下讨生活,竟一头撞上了美国网络大跃进。美利坚果然是流浪者的天堂,机会多多。广阔天地,大有可为,开启创业之路( 《朝华午拾:创业之路》《朝华午拾:在美国写基金申请的酸甜苦辣》)。轰轰烈烈的创业宏图随着泡沫的破灭渐趋平淡(没有夭折已属万幸,《朝华午拾:水牛风云》《朝华午拾:用人之道》),遂再南下,终于陷入IT民工的圣地不能自拔,人称硅谷(or 矽谷)( 【创业故事:技术的力量和技术公司的命运】 【朝华午拾:安娜离职记】《朝华午拾:今天是个好日子》《朝华午拾:信息抽取笔记》)。

在我流浪的词典里,除了尚未收入 海龟 外,几乎全乎了,冥冥中似有所缺。陶渊明的【归去来辞】不时在耳边萦回,“田园将芜胡不归”(《朝华午拾:乡愁是一张无形的网》)。海龟创业,叶落归根,抑或蹉跎岁月,混不思蜀,这是哈默雷特的天问。

1991 年出国前在中关村高立公司与刘倬导师(下左2)和董振东前辈 (下右1) 及高立同仁合影留念

【相关篇什】

《朝华午拾:乡愁是一张无形的网》

【朝华午拾 - 立委小传】

【置顶:立委科学网博客NLP博文一览(定期更新版)】

https://blog.sciencenet.cn/blog-362400-673109.html

 

王菲春晚《世界赠予我的》歌词,亮点与短板

微信视频看到一位语文老师对这首歌歌词的吐槽和改写。有些道理,改写的歌词也确实顺溜多了,易于普及。但第一,这是在人家原创的新颖写法所创造的意境上修改;第二,顺溜有顺溜的好处,矛盾或难解也有引发听众思考与发挥的好处。

这首歌最近听得蛮多(我在春节前后还在视频号做过两期MTV), 对歌词有一些感觉可以说说。

整体上说,原作写法新颖,用词有些奇特,整体歌词长在哲理和意境,有妙语,但也有语病。最严重的语病就是“赠予回敬”。

上天赠予“我”回敬,“谁”回敬“谁”“什么”呢? 回敬这个词的最常见的场景是,他人攻击我了, “我”回敬他人,那也是我的自主行为,谈不上“赠予”。如果是他人回敬“我”,其前提是“我”对他人做过攻击,前后看语义上下文,这是说不通的。

“回敬”是一种故作敬态的回应,而“赠予”是恭敬的馈送。让回敬做赠予的宾语,搭配不当。“赠予我拥有”(可以理解为赠予我礼物,拥有代指“拥有物”)就已经够别扭了,再来个“赠予我回敬”,让人感觉不知所云。可能是“回馈”(对“拥有”的回馈)的意思,为了押韵,错用了“回敬”来代替。

“回敬”作为谓词,逻辑语义框架里有三个角色:施事(谁回敬)、受事(回敬谁)、宾语(回敬什么),但“回敬”自己处于“赠予”的宾语位置,这几个角色模糊不清,其所引起的混乱和费解,不怪语文老师觉得不可忍。

写词的文科姐,可能是浮想联翩,用力过猛而“出格”。这在歌词创作中也不罕见,叫 poetic license,通常不做苛求。但无论如何,这种奇怪的动宾搭配困惑度(perplexity)很高,会使绝大多数人感到糊涂,属于败笔。大家传唱不过是因为作曲好就跟着瞎唱,并没在意歌词是不是 make sense。

困惑度高的直接表现就是 ,剪映中自动听音写词的功能根本无法decode原文,因为这项软件功能的背后是语言模型(language model),对于这种困惑度高的序列搞不定,只能另行创造(所谓”幻觉“):

原歌词:世界赠予我拥有 也赠予我回敬。
语言模型幻觉解码:世界赠予我拥有,也赠予我爱情。

面对困惑,语言模型无法decode这种出格的原词(outlier) “回敬”,结果解码成 “爱情” 似乎也不错。在这种解码下,“拥有”应该指的是财富,“爱情”就是爱情。而在原词中 “拥有”可以解读为命运的礼物或曾经的爱情,而“回敬”则可能是对于礼物的回赠。

其他困惑度高,语言模型幻觉创造的cases还有:

原歌词: 赠我一个名,又渐渐长大的年龄
语言模型: 赠我一个谜,又渐渐长大的年龄

人生本来就是一个谜啊,岂止简单的出生赐名,所以这里模型的解码也许更妙。最妙的是:

原歌词:赠我弯弯一枚月,也赠予我晚星
语言模型:赠我温暖与悲悦,也赠予我惋惜

“月”和“星”状物,“温暖”、“悲悦”和“惋惜”直接述情,貌似更胜一筹。唱起来也很顺。

顺便一提,“别匆匆”歧义,有两个隐藏解读都说得通。一个是:不要匆忙。要善待自己,给自己品味人生,以及喘息和疗愈的时间。另一个是:分别也匆匆,尤其是感叹恋人或亲人聚少离多的生活现实。

再有,语文老师发现歌词里面暗藏了(谢)霆锋的名字,有机巧。说明此歌是为王菲量身打造的。娱乐圈八卦已经众所周知了,谢霆锋是王菲的最爱,是三段婚姻中最念念不忘的。N年前先是王菲谢霆锋的姐弟恋,以及她不顾世俗和骂名的第三者插足;后离婚,再后来又复婚,中间还穿插了其他 relationships,起起伏伏。不怪王菲唱罢歌曲,满噙眼泪,双手合一,人在台上久久静默,仿佛在念佛。这首歌,她是真带入了。同时她的演绎也感染了无数人。

“远去者去了远方,愿他都安心。” 一开始还以为在纪念逝去的亲人,但通观全词的爱情主线,更像是在纪念逝去的爱情。也许远去者是不得不分手、又难舍情缘的前任,她祝福他安心,其实更是试图宽慰自己,要安心接受“拍一张合影,渐渐填满真感情”的新缘分。

我本人特别喜欢这两句歌词:

赠我一场病,又慢慢痊愈摇风铃。
赠我一场空,又渐渐填满新感情。

它是我2024年生活的真实写照,非常的切身感受。

总的感觉一句话,词作者能写出引起人共鸣、思考和争论的歌词,还是很了得的。至于作曲以及王菲的演唱,可以说是注定成为经典。

 

【相关】

https://www.douyin.com/video/7466269705402060042

语文老师点评并修改王菲《世界赠予我的》歌词# 王菲... https://v.douyin.com/ifcm9PvH/ CuF:/ 03/09 [email protected]

7.99 复制打开抖音,看看【立委的作品】王菲春晚注定传世之作 小白版 # 王菲 # 小白 ... https://v.douyin.com/ifvcmXG7/ Ate:/ [email protected] 12/08

人类反馈是超级智能的桎梏吗?

回答这个问题之前,先从 AGI/ASI 谈起。

AGI (Artificial General Intelligence, 通用人工智能)
ASI (Artificial Super Intelligence,超级人工智能)

在当代人工智能历史上,这两个术语虽然流行的先后有别,常常混杂使用。它们是挂在AI先知(代表人物之一是伊利亚)和企业家(代表人物包括Sam奥特曼和马斯克)嘴边的最常用的词,作为鼓励自己和团队的目标,也 serve 给投资人和大众营销的作用。

这里谈谈我的看法。

机器达到甚至超越人类的技能,无论是人类顶尖个体的专业能力(例如围棋冠军、名校教授),还是人类总体的知识水平,这就是我眼中的 AGI。但这里的专业能力和知识水平,我认为并不包括重大的发明创造能力。这个意义上的AGI是一种确定的趋势,最多不过就是两年内实现,还是五年内实现的差异而已。

AGI 是确认无疑的,正在发生、已经发生、即将发生。

ASI 则是全面超越人类顶尖智能,包括发明创造的能力。ASI 的实现应该还可以商榷。现在就确信ASI可以在不太久的未来(有说三五年,也有说10年左右)实现的吹鼓手,主要是伊利亚、Dario(Anthropic CEO)这些AGI时代的“先知”们,他们是信仰者。奥特曼和马斯克貌似也在营销类似ASI的概念,但感觉更多是企业家需要画饼的驱动。

ASI比AGI更少共识,但可以描述。ASI 实现的时候,机器可以解开困扰数学家几百年的世纪难题,可以批量制造陈景润级别的模型把1+n等问题解决。更重要的是,ASI(for science)可以自己针对疾病制造特效新药,发明创造的速度比人类缓慢的探索要提升 n(Dario 好像说 n等于2)个量级。这一切带来物质极大丰富,重大疾病被有效控制甚至消除,寿命至少延长一倍,一句话,ASI意味着技术共产主义的全面实现。

人类反馈是超级智能的桎梏吗?

如果是,那又如何理解以人为本,与人类对齐的宗旨呢?

现在看来,以人为本以及人类(偏好)反馈对齐等,指的是最终结果或成品,这是人类价值观的体现。这一点永远不会改变,也不应该改变。但需要强调的是,人决定的是 what,不是how。what 永远是人说了算。至于生成结果的过程,现在看来,人类越来越有心无力,甚至成为障碍,而不是助力。

一个有意思的例子是,当 alpha zero 下棋到第30几步的时候,走了一步人类不能理解,连世界冠军也会判定是愚蠢的一步。但那却是超人智能的精彩过程,是制胜法宝的一个精妙环节。这种高招连冠军都不能理解,说明机器智能显然超越了人类智能的边界。如果在过程上依赖人类反馈,哪怕是围棋冠军来做标注,也会阻碍机器智能的超人潜力。

当这类超人智能大量产生的时候,人类很自然会感觉困扰。因为 by human nature,所有人多多少少都有某种控制欲,对于自己不理解、不能掌控的过程,总是持有戒心,至少是很不舒服。但可惜无解。未来会出现越来越多的不可理解的奇迹,或技术魔术。人类所能做的就是加强目标制定和结果控制,而不是“不自力量”试图过程控制。

最后谈一下马斯克的AI威胁论,主要是把人类类比为蚂蚁,而ASI类比为人类:ASI 灭绝人类文明不需要恶意,因为蚂蚁不构成人类的心理负担。

我认为,这个比喻是荒谬的,因为蚂蚁永远造不出人类,而ASI是人类创造的。人类与蚂蚁均属动物,但却不在一个价值参照系中。

但我们不排除,人类可以以ASI形态,制造出自己的上帝。

如果上帝是共识中的人格化的存在,人类完全可能把机器变成上帝。无论你在上帝与人之间是持谁是照着谁的模样创造的,the key 是,上帝与人位于同一层人类价值观的参考系上。上帝至善、至美而万能。善、美、能,都是人类的价值观的表现。

而蚂蚁不同,蚂蚁与人类不处于同一个参照系,人类 is way beyond ants。蚂蚁们自己没有尺子来度量人类。但人类对上帝是有度量或想象的。

人类对于结果(而不是过程)不理解,无法判别、或感觉不到好处的东西,最简单也是最自然的反应就是停止那个结果导向。再超级的过程智能,如果没有人类规定的方向,或违背人类的价值观,也是(原则上)随时可以按下停止键的。

所以马斯克的那种担忧,属于耸人听闻、杞人忧天。

但这不是说AI没有更加现实的威胁,例如真假莫辨造成的社会混乱,取代人类jobs而福利制度尚未建成而造成的恐慌,还有体制滞后、技术加速度所造成的不匹配和不适应,等等。这些都是看得见、正在到来、可以预见的巨大社会问题,而不是机器统治人类那种天方夜谭。

当然也不能排除ASI被恶人恶意使用可能对人类造成的伤害,但绝不是什么ASI像对待蚂蚁一样,可以任性消灭人类。恶意使用类似核扩散的潜在恶果,最终需要向对付核武器一样防控。

 

【相关】