像素值是“连续变量”,还是工程上的伪装?

 

“视觉是连续空间的模拟信号,每个像素点就是一个连续变量。”
这是很多计算机视觉教材和模型论文中默认的假设。听起来合理,似乎也和物理世界接轨。但只要稍加推敲,就会暴露出它并非科学结论,而是工程手段的一种近似表达。

我们必须首先区分几个层面:

一、在物理上,光照和颜色确实是连续信号

自然界的光波、亮度和色彩是连续的,这没错。但人类并非以连续方式感知这些物理量——我们的眼睛和大脑会自动将其量化、概念化。例如:

    • 明度被压缩进有限的亮度感知等级;
    • 色彩区分能力是有限的,大致在几千到几万种之间;
    • 空间分辨率和时间刷新频率也受到神经系统本身的限制。

也就是说,虽然世界本身是连续的,人类感知和认知所依赖的输入体验早已是量化后的结果

二、数字图像是离散化的产物

数字化图像以像素构成,通常每个通道8位,表示0到255之间的整数值。无论是JPEG、PNG还是RAW图像,底层存储都是有限精度的离散整数。模型所接收的图像本质上早已是数字化采样后的结果,并非模拟信号。

然而,在神经网络训练过程中,图像输入往往被归一化为0到1之间的浮点数。这一步并非出于感知上的真实需要,而是出于数值计算的方便性。深度学习系统依赖于梯度传播进行优化,而梯度下降算法要求输入数据分布平滑、可导、易归一化。因此,离散像素被“伪装”为连续变量,是为了解决优化问题,而非反映图像本质的必需。

三、这是一种“数学正确”的错觉

模型在训练中处理的是张量空间上的浮点向量,并依赖于连续空间的插值、卷积、归一化等操作。这使得像素在模型编码实现上被强行纳入连续数域,但这种连续性是工程层面的假设,并非信息层面的需求

人类的视觉系统并不需要那么高的分辨率。绝大多数图像中的数值精度远远超出了人类的感知极限。8-bit 表示的256级灰度中,人眼实际可分辨的亮度等级可能不超过100级。而RGB色彩空间中的1670万种组合,也远远超过人类色彩分辨能力的上限。

这意味着:我们为模型输入提供的“连续性”,大部分是感知冗余。高精度浮点表示中的大部分“细节”信息,对人类无感,也并不必然提升模型表现。它们只是方便训练,“让梯度更好传播”的工具,本身并不承载有意义的知识。从信息论角度衡量,每一个像素点的连续表示空间远远超过其必要承载的信息量。这种表征冗余本质上可能是计算资源的结构性浪费

四、重估视觉建模的基本假设

当我们把图像建模为“连续变量组成的张量”,其实是在把一个本可以紧凑表达的问题,拆成了浮点优化问题。它解决的是训练上的可微问题,而不是表达上的本质问题。

未来的视觉模型及其编码,可能应该从三个方向反思:

    • 一是重新审视离散空间在图像表示中的有效性(如 VQ-VAE, DALL·E-style tokens);
    • 二是设计与人类感知匹配的量化机制,基于视觉系统的辨识上限进行编码;
    • 三是开发混合表征体系以节省资源,在连续优化和离散认知之间建立桥梁。

归根结底,“像素是连续变量”不是对世界的解释,而是对神经网络计算架构的妥协。它解决了梯度下降的问题,却掩盖了表征效率的问题。

我们应当意识到,这种假设在科学意义上是伪装的;在工程意义上是权宜的;而在未来的表征体系中,它可能具有进一步量化的优化空间。

 

 

Yann LeCun 所鼓吹的「世界模型」与GPT+Diffusion有什么不同

Yann LeCun 所鼓吹的「世界模型」(World Model)是一種旨在模仿人類和動物學習世界運作方式的新興 AI 概念 [P1, P62]。他認為,這條路徑不同於主流的 GPT/Diffusion 模型所依賴的大數據、大參數和自迴歸 Transformer 架構,是實現通用人工智慧(AGI)的關鍵 [P1, P62]。

以下將從實際能力、優缺點等方面,對最新發布的 LeCun 世界模型(如 I-JEPA 和 V-JEPA 2)與主流 GPT/Diffusion 模型進行比較:

世界模型(I-JEPA, V-JEPA 2)能做到而主流 GPT/Diffusion 難以實現的事項:

  1. 理解與預測物理世界及因果關係
    • 世界模型的核心能力在於對真實物理世界做出反應,能夠理解觀察到的事物(包括物體、動作和運動),並預測世界將如何演變,或智能體採取行動後世界會如何變化 [P1, P32]。這種觀察有助於建立對世界運作方式的因果關係理解 [P1, P4]。
    • 例如,V-JEPA 2 是首個基於影片訓練的世界模型,它顯著提升了動作預測和物理世界建模能力 [P1, P31]。它能夠為籃球的彈跳等物理現象提供更精確的模擬結果,因為它具備了基本的物理認知 [P1, P62]。
    • 比較與主流模型: 主流的生成模型,如基於 Diffusion 和 Transformer 的 Sora目前仍難以準確學習物理規律 [P1, P71]。即使在充足的訓練數據下(可能包含 CG 生成數據),Sora 生成的影片也可能顯示出不符合物理規律之處,這表明簡單地堆砌數據並非通向更高級智能的道路 [P1, P71]。LeCun 更指出,目前的 AI 形式(生成式 AI 和大型語言模型)在缺乏對物理世界的理解、持久記憶、推理能力和複雜規劃能力方面存在限制,阻礙了機器實現真正的智能行為 [P39, P40]。
  2. 透過抽象表示進行預測與規劃,而非精確像素或文字重構
    • 世界模型(如 I-JEPA 和 V-JEPA)的關鍵優勢在於不需要精確預測世界的每一個細節,只需預測足夠抽象的表示以實現規劃目的 [P1, P4, P5, P19, P21]。這種方法比傳統的像素重構方法更注重對圖像的語義表示進行預測,而非完美重構圖像本身 [P5, P21, P73]。
    • I-JEPA 的核心思想是預測抽象表示中缺失的資訊,這更接近人類的普遍理解 [P1, P21]。透過使用抽象預測目標,它可以潛在地消除不必要的像素級細節,從而引導模型學習更具語義性的特徵 [P21]。
    • 比較與主流模型: 生成式架構(如 GPT 和 Diffusion)透過移除或扭曲輸入部分(如擦除照片或隱藏文字),然後試圖預測被破壞或缺失的像素或詞語 [P1, P19, P72]。然而,世界本質上是不可預測的,生成方法可能傾向於填補每一個缺失的資訊,這可能導致模型過度專注於不相關的細節,並犯下人類不會犯的錯誤(例如,生成人手時多出手指,即所謂的「幻覺」問題) [P1, P19, P62]。
  3. 更高的計算效率和更強的語義表示學習能力
    • I-JEPA 的預訓練計算效率很高 [P1, P25]。它不需要應用更耗費計算的資料增強來產生多個視圖,並能夠在不使用手工設計的視圖增強的情況下,學習到強大的現成語義表示 [P1, P25]。在相同的資料量下,I-JEPA 在 ImageNet 上實現最先進的低樣本分類性能時,所需的 GPU 時間比其他方法少 2 到 10 倍 [P1, P16, P25]。
    • V-JEPA 是一種非生成模型,透過預測抽象表示空間中影片的缺失或遮罩部分來學習 [P72]。它可以靈活地丟棄不可預測的資訊,從而將訓練和樣本效率提高 1.5 倍到 6 倍 [P1, P72]。
    • 比較與主流模型: 雖然未直接點出 GPT/Diffusion 的計算效率劣勢,但 World Model 聲稱其計算效率更高,暗示了主流模型在某些方面可能不如其高效。
  4. 零樣本規劃與機器人控制
    • V-JEPA 2 能夠用於在新環境中進行零樣本規劃(Zero-shot planning)和機器人控制 [P1, P32]。它能夠透過想像一系列候選動作的後果來規劃行動,並根據它們接近目標的速度對動作進行評分 [P1, P34]。
    • 這使得 AI 智能體能夠在不需要大量機器人訓練數據的情況下,幫助完成家務和體力任務 [P1, P31]。
    • 世界模型的核心作用是反事實推理(Counterfactual reasoning),即便是對於數據中未見過的決策,在世界模型中都能推斷出決策的結果 [P1, P68]。這是一種人類天然具備,而當前 AI 做得很差的能力 [P1, P68]。一旦產生突破,AI 決策能力會大幅提升,實現全自動駕駛等場景應用 [P69]。
    • 比較與主流模型: LeCun 認為當前 LLM 模式缺乏推理能力和複雜規劃能力,阻礙了真正的智能行為 [P40]。他預測,未來幾年可能成為「機器人技術的十年」,屆時 AI 和機器人技術的進步將結合,解鎖新一代智能應用 [P39, P41]。
  5. 促進開放研究與文化多樣性
    • LeCun 和 Meta 強調開源模型的重要性,認為對於基礎技術和基礎設施類技術,開源模型總能取得勝利 [P1, P5]。開源模型更可靠、安全、可客製化,並能吸引更多參與和貢獻,形成一個生態系統 [P1, P5]。
    • 開源有助於匯集更多人的智慧,避免整個資訊流被一家公司主導並受到某種偏見,這對於世界各地的文化多樣性來說非常重要 [P1, P6]。
    • 比較與主流模型: 雖然 OpenAI 等公司也發布部分開源模型,但 LeCun 強調的開源哲學似乎是更全面和深層次的,認為這能避免壟斷和濫用 [P6, P8]。

兩類模型的缺點與挑戰:

LeCun 世界模型的缺點與挑戰:

  • 複雜性與持續研究: 目前還沒有一套明確的訓練過程可以替代 JEPA 架構,需要進一步研究和發展才能找到更好的方法 [P5]。仍需要發現新的概念、新的架構來實現人類般的智能水平 [P5]。
  • 物理定律模擬的不足: 儘管在進步,但世界模型在模擬現實世界中的複雜物理現象(如流體動力學、空氣動力學等)時,其準確性和一致性仍然不足 [P51]。人類在物理理解基線測試中的表現仍明顯優於包括 V-JEPA 2 在內的頂級模型 [P34]。
  • 泛化能力(外推能力): 對於真實世界中罕見或異常事件的預測(如自動駕駛中的交通事故),模型能否超越訓練數據的記憶,發展出對原理的深刻理解以進行外推,是一個挑戰 [P52]。
  • 計算效率(針對特定應用場景): 對於某些生成式應用,如生成高質量影片,保持時間一致性會導致生成時間大大增加,例如 Sora 生成一分鐘影片可能需要一小時,這限制了大規模應用 [P52]。
  • 性能評估的挑戰: 當前世界模型研究熱點集中在生成式模型上,評估指標主要為生成質量,但這些指標不足以全面反映世界模型的預測合理性。結合人類反饋能使評估更全面,但效率和一致性有待提升 [P52]。
  • 當前模型的局限性: V-JEPA 2 目前只能在單一時間尺度上學習和進行預測,而許多任務需要跨多個時間尺度的規劃。未來重要的方向是發展分層次和多模態的 JEPA 模型,使其能夠使用視覺、音訊和觸覺等多種感官進行預測 [P36, P74]。目前 V-JEPA 適合處理相對較短的影片(可能長達 10 秒),但要在更長的時間範圍內進行預測仍是挑戰 [P74]。

主流 GPT/Diffusion 模型的缺點與挑戰:

  • 缺乏物理世界的深層理解: 如前所述,它們在準確學習和模擬物理規律方面存在明顯不足 [P1, P71]。
  • 推理和規劃能力有限: LeCun 認為當前的大型語言模型(LLMs)擅長處理語言,但不擅長思考 [P40]。它們缺乏持久記憶、推理能力和複雜規劃能力,這阻礙了機器實現真正的智能行為 [P40]。
  • 「幻覺」問題: 由於傾向於填補所有缺失資訊,即使是不可預測的細節,這類模型容易產生「幻覺」,生成看似合理但不正確的內容 [P1, P19, P62, P93]。
  • 對數據的過度依賴: 這類模型透過大量數據進行模式識別和重建學習,但對數據之外的抽象概念和因果關係的理解仍是挑戰 [P62, P68]。
  • 未來發展路線的質疑: LeCun 預測目前的 LLM 模式壽命可能只有三到五年,認為未來會出現全新的 AI 架構範式,其能力將遠遠超越現有 AI 系統 [P39]。他認為自迴歸的 Transformer 是無法通往 AGI 的 [P63]。

 

立委关于大模型与AI的博客汇总

立委关于大模型与AI的博客汇总

立委按:一辈子从事NLP/AI工作,已经习惯于在自己的博客频道持续写笔记,记下一路走来的观察和体会。所写貌似科普,但实际上不是为了迎合大众或普惠天下,根本动因还是为自己留下足迹,其次才是与亲友、同人、后学分享。大模型爆发是个分水岭。爆发前的博客集中在NLP的方方面面,大多是符号逻辑路线在自然语言文法方面的挣扎与进展。爆发后也没闲着,在这个有如寒武纪生物大爆发一样的让人眼花缭乱的世界,兴奋与刺激大于焦虑和恐怖,于是一路紧随,只问耕耘。现不揣拙陋,结集于此,定时更新,留下这个时代一位老兵的视界。

立委NLP频道

像素值是“连续变量”,还是工程上的伪装?

Yann LeCun 所鼓吹的「世界模型」与GPT+Diffusion有什么不同

详述AI科学家張祥雨的大模型访谈

LLM的后训练强化学习是怎么工作的

大模型科普:探秘莎翁风格的诞生之旅(无代码版)

揭秘GPT内核之四

从零实现莎士比亚风 GPT科普解说

从0实现并理解GPT

解读EMPO全程无监督推理新范式

立委科普:揭秘AI创作视频的两种“神功”

非量化自回归视频生成模型NOVA的技术路线

生成式AI的两条视频生成路线(文献综述)

MCP:从“伪繁荣”到可落地的进化路线

中文分词的前世今生

大模型如何解锁AI各种任务成为通用引擎的?

Grok: 大力出奇迹的背后

Grok:超大数据的大模型为何能收敛?

《“蜜蜂巢”里的子弹:JFK档案解密后》

2025年肯尼迪遇刺档案解密揭示的惊人真相

2025年肯尼迪遇刺案档案解密

Gemini Deep Research:用“Logits Lens”洞察神经网络的奥秘

Sonnet3.7: 推理大模型的挑战与前景(图文版)

数学圆舞曲:欧拉恒等式(配乐诗朗诵)

检索增强(RAG)与窗口数据的互补性 (图文版)

检索增强(RAG)与窗口数据的互补性

关于颈椎病,大模型医疗建议靠谱吗?

人类 vs 恐龙:一场关于“不作不死”的滑稽短剧

deep research: 最新颈椎病手术指征与治疗概览

Xiao Hong Red:肖弘其人

万字长文解析 LLM-native Agent 及其混合计算方式

o3 deep research: LLM 驱动的 Agent 综述

Agent:数字代理的崛起与未来

Agent元年:从聊天机器人到数字员工的当代进化史

生成式AI学习中容易混淆的几个术语

思维链是大模型的符号神助攻

再谈自然模态数据是高维空间的低维流形

深度学习的局限性研究综述

o3 deep research: 深度学习局限性研究报告

深度学习的基石:多层感知机

o3 Deep Research: DeepSeek R1 多阶段训练流程问答解析

RPA 赛道与大模型Copilots早期创业者的困局

Transformer 和注意力机制简介

立委科普:如何理解自注意力机制中的QKV分工?

语言学家应该很容易理解自注意力机制

《立委科普:自注意力机制解说》

DeepSeek 笔记:推理新范式 query+cot+answer 支持新的 scaling law 吗?

DeepSeek 笔记:R1 部署阶段的推理机制

从R1幻觉谈起,大模型幻觉是缺陷还是创意火花?

推理强化学习是端到端的监督,推理过程的非监督

DeepSeek 风暴下看看它的论文

大模型风云诡谲的下半场:scaling 失效?

给奶奶讲一下AI最新物种“大模型代理”

左脚踩右脚可以飞吗,谈交替使用监督微调和强化学习的后训练

DeepSeek爆火真相:不靠“人盯”, 让AI自己学会慢思考

人类反馈是超级智能的桎梏吗?

马毅教授的演讲,值得一听

马毅教授称,已经揭开完全揭开神经网络的面纱

NLP老司机的AIGC旅程

创业邦深圳会议演讲笔记:推动AIGC商业落地,出门问问的「产模结合」实践

立委论LLM:什么是AI刚需

辣妈3笔记 以及辣妈MV与辣妈3.1传奇

符号主义被打入冷宫太久了,难道神经是AI的终结者吗?

DeepSeek R1:《少年DS之烦恼》

告诉李雪琴一个激发写段子灵感的秘诀:找deepseek R1

大模型三阶段的 scaling laws 接力赛

视觉模型生成的极限对齐

解耦才能解套:再谈视频中的人物一致性问题

挥刀董事会,OpenAI 如何解决致命难题

英伟达GTC的一小步,AI进化史的一大步

为什么说 Sora 是世界的模拟器?

立委两分钟:大模型到底有没有逻辑推理能力?

介绍尼克的最新演讲,探寻大模型的理论基础与渊源(中文版,英文字幕)

《AI潮流:开发者提示工程公开课中的二原则》

《飞哥说AI》深度系列

2023/12/09: 李维 高佳:OpenAI狂飙生态? 领域壁垒仍是大山

2023/12/09: 李志飞 高佳 李维:关于 Google Gemini 的八点启示

2024/02/19: 李志飞 李维 高佳:为什么说 Sora 是世界的模拟器?

2024/02/29: 李志飞 李维 高佳:万字长文解构中国如何复刻 Sora:模型架构、参数规模、数据规模、训练成本

2024/03/05: 李志飞 李维:Claude 3 追平或超越 GPT-4,能归纳15万单词

2024/04/01: 李维 王艺 高佳:Suno 将如何进化?

2024/04/12: 高佳 李维 王艺「产模结合」也许是AI公司更好的出路?

2024/06/04: 李维 高佳:KAN会引起大模型的范式转变吗?

2024/07/18:李维 高佳:“安全智能”的背后,Ilya 究竟看到了什么?

2023-2024关于大模型及AIGC的演讲/采访

2023-03-05:源码资本AIGC“尖峰系列”,李维博士:人类语言“通天塔”建成,ChatGPT的辉煌与挑战

2023/05/09: 腾讯科技,对话产业专家:“百模大战”愈演愈烈,地球上算力不够支撑10亿人使用

2023/07/16: 轩辕之学讲座,特邀讲座《大模型的历史、现状和挑战

2023/06/28: 中国证券报报道 360 GPT 联盟特邀演讲:李维:避免大模型行业同质化竞争 深耕领域阶段有很多“细活”可做

2023/07/21: ArchSummit 全球架构师峰会主题演讲《从架构师视角谈如何迎接/拥抱大模型及其新生态》(https://blog.csdn.net/EDDYCJY/article/details/131929057

2023/07/28: Chinajoy,中国音像与数字出版协会和上海汉威信恒展览有限公司主办,特邀演讲《AIGC时代,数字人引领内容创作新范式

2023/08/06: 亚马逊云科技和真格基金主办的闭 “机遇与挑战——生成式AI的发展趋势和落地应用”,主题演讲《AI大模型落地的前景和痛点》

2023/08/23: 江苏师范大学主办 “大语言模型离人类语言有多远”学术研讨会特邀演讲《大模型的本性及其落地痛点》

2023/10/20: 第十一届科博会,特邀主题演讲《AI和大模型趋势》

2024年3月18:英伟达 GTC2024全球开发者大会 与英伟达中国团队合作,讲演《重塑数字人互动潜能》

2024/04/22: 第十四届北京国际电影节光影未来,演讲《捕捉未来的魔术师》

2024/04/22 九派财经专访出门问问副总裁李维:两年内大模型的商业化爆发一定会发生

2023/11/11: 香蕉论坛,“百“模”大战对智能座舱发展意义与实践”,2023/12/05 汽车商业评论,《​李维:大模型技术的过去、现在与未来

2023/12/05 汽车商业评论,《​李维:大模型技术的过去、现在与未来

2024/04/22:九派财经专访出门问问副总裁李维:两年内大模型的商业化爆发一定会发生

2024/05/24: 九派财经专访出门问问副总裁李维:找产品方向是更大痛点,跑通场景是第一位

《AI浪潮博客目录:白模大战早期》

《AI浪潮:不识数的 ChatGPT》

《AI浪潮:打造中国的 ChatGPT,挑战与机会并存》

《AI浪潮:chatGPT 搞定了人类语言》

《AI浪潮:chatGPT 能写出段子吗》

《AI浪潮:chatGPT 的里程碑意义》

《AI浪潮:chatGPT 写的情书能有真情吗》

《AI浪潮:LLM 凭什么能“涌现”超级能力?》

《AI浪潮:漫谈LLM与领域对齐》

《AI浪潮:神迹与笑话齐飞,chatGPT 也是大观了》

《AI浪潮:chatGPT 帮你写应用文》

《AI浪潮:人工智能当代简史》

《AI浪潮:chatGPT 辅导精读学术论文的实验》

《AI浪潮:因为见从而信,见证奇迹的时刻》

《AI浪潮:zero shot 抽取、摘要、吟诗、阅读理解》

《AI浪潮:玩不死的 chatGPT》

《AI浪潮:关于chatGPT 的 思维链能力 》

《AI浪潮:n-shot 是训练还是指令》

随笔:AGI 迷思与反思

AIGC 潮流扑面而来,是顺应还是(无谓)抵抗呢?

漫谈AI 模型生成图像

图灵测试其实已经过时了

RPA 是任务执行器还是数字员工?

《深层解析符号模型与深度学习预训练模型》(修订文字版)

NLP 新纪元来临了吗?

推荐Chris Manning 论大模型,并附上相关讨论

《我看好超大生成模型的创造前途》

立委随笔:机器翻译,从学者到学员

《AI 随笔:观老教授Walid的神经网络批判有感》

《李白梁严127:神经的要害在数据瓶颈与定点纠错盲区》

《李白126:神经 attention 机制搞定代词指代的案例》

泥沙龙笔记:从乔姆斯基大战谷歌Norvig说起

《AI潮流:与 ChatGPT4 聊“买房送老公”背后的语言学》

《AI潮流:跟Andrew学如何调用 ChatGPT 做自己的服务前台》

【AI 浪潮:超级词匠 ChatGPT4 的百变文风】

【AI 浪潮:数据中心的大模型时代】

【AI 浪潮:大模型推理的细节编造是 feature,不是 bug】

两分钟谈谈:Moravec悖论

两分钟谈一下啊:模型训练的内推与外推

两分钟短评:大模型开始进入平台期吗?

悲观主义的视角,人类的宿命

以前的杂记,关于AGI、马斯克、奥特曼和OpenAI

语言是大一统模型里的核心和主线

AIGC时代,关于鲁迅大脑的复活

小雅系列:短视频文案

大模型短视频系列:大模型压缩与白马非马

AIGC 作品

【唐诗300首 AIGC 配乐: 白居易 琵琶行】

【唐诗300首 AIGC 配乐: 李商隐 无题】

【唐诗300首 AIGC 配乐: 杜甫 春望】

AIGC Suno:英烈颂

AI创作花絮: 《影月无痕》

大模型的落地现状和前景

大模型漫谈系列n

图片一键生成短视屏,奇妙元是时间的摄像机

奇妙元体验AIGC奇妙:《岁月如歌:神秘园》

立委微信视频号

大模型科普系列1 
系列2 知识蒸馏
系列3 自回归和扩散模型
系列4 视频生成
https://weixin.qq.com/sph/A523fBxLQ
https://weixin.qq.com/sph/Aw5lAfSoV
https://weixin.qq.com/sph/Af5j09VbP
https://weixin.qq.com/sph/AsK0Dk54l
https://weixin.qq.com/sph/AIanE0ocM
https://weixin.qq.com/sph/AbxoSWedA
https://weixin.qq.com/sph/AA6fqzTkO

English

How GPT Works: A Shakespearean Text Generator

MCP: From Flashy Boom to Real Usability — A Technical Deep Dive

03 deep research: Challenges and Prospects of Advanced Reasoning LLMs

Does the New Reasoning Paradigm (Query+CoT+Answer) Support a New Scaling Law?

Technical Deep Dive: Understanding DeepSeek R1's Reasoning Mechanism in Production

DeepSeek's R1 Paper: A Storm in AI LLM Circle

The Turbulent Second Chapter of Large Language Models: Has Scaling Stalled?

DeepSeek_R1 paper

Probabilistic Transformer: A Probabilistic Dependency Model for Contextual Word Representation

Introduction to Transformer and Its Attention Mechanism

Has Symbolism Been Sidelined for Too Long? Could Neural LLM terminate AI?

What did Ilya see? -- secret behind success of LLMs

Suno AIGC:Ode to Madam Hu

Nick tracing the AI history for theoretical foundation and sources (English)

Unified Models Surpass Single-modal Models  (Gemini Notes 2/8)

Cross-modal Knowledge Transfer of Large Models Proven (Gemini Notes 1/8)

Decoding the New EMPO Reasoning Paradigm

A Comparative Review of Autoregressive and Diffusion Models for Video Generation

Unveiling the Two "Superpowers" Behind AI Video Creation

Decoding LLM-native Agents: Bridging Compilation and Interpretation in AI

The Three-Stage Scaling Laws Large Language Models

Technical Deep Dive: Understanding DeepSeek R1's Reasoning Mechanism in Production

Professor Ma's long paper out

Professor Ma Claims to Have Fully Unveiled the Mysteries of Neural Networks

Decoupling to Resolve: Issue of Character Consistency in Video Generation

Llama 3 Notes and Llama MV with Llama 3.1 Legend

The ChatGPT Tsunami and Its Impact on IT Landscape and New Ecosystem

《科学网》博客

从0实现并理解GPT 2025-06-04

大模型科普:探秘莎翁风格的诞生之旅(无代码版) 2025-06-03

LLM的后训练强化学习是怎么工作的 2025-06-02
EMPO强化学习项目复现Claude4学习总结 2025-05-27
解读EMPO全程无监督推理新范式 2025-05-27
Decoding the New EMPO Reasoning Paradigm 2025-05-27
Q&A on NLP: Chapter I Natural Language and Linguistic Form 2025-05-22
MeanFlow: AI图像生成的降维打击 2025-05-22
Review of Autoregressive and Diffusion Models for Video Gene 2025-05-03
Unveiling the Two "Superpowers" Behind AI Video Creation 2025-05-02
生成式AI的两条视频生成路线 2025-05-02
非量化自回归视频生成模型NOVA的技术路线 2025-05-02
立委科普:揭秘AI创作视频的两种“神功” 2025-05-02
Silicon Valley Night: A Foxy Encounter 2025-04-23
《硅谷夜记:艳遇》 2025-04-23
中文分词的前世今生 2025-03-30
大模型如何解锁AI各种任务成为通用引擎的?
Grok:大模型为什么要超大数据?(4o配图)
Grok: 大力出奇迹的背后
2025年肯尼迪遇刺案档案解密 (审核未通过)
2025年肯尼迪遇刺档案解密揭示的惊人真相 (审核未通过)
《“蜜蜂巢”里的子弹:JFK档案解密后》
Grok:超大数据的大模型为何能收敛?
Gemini Deep Research:用“Logits Lens”洞察神经网络的奥秘
检索增强(RAG)与窗口数据的互补性 (图文版)
03 deep research: Challenges and Prospects of Advanced Reaso
Sonnet3.7: 推理大模型的挑战与前景(图文版)
数学圆舞曲:欧拉恒等式(配乐诗朗诵)
人类 vs 恐龙:一场关于“不作不死”的滑稽短剧
deep research: 最新颈椎病手术指征与治疗概览
关于颈椎病,大模型医疗建议靠谱吗?
给奶奶讲一下AI最新物种“大模型代理”
Decoding LLM-native Agents: Bridging Compilation and Interpr
The Agent Era: The Contemporary Evolution from Chatbots to D
o3 deep research: 智能体的应用和演进
万字长文解析 LLM-native Agent 及其混合计算方式
Xiao Hong Red:肖弘其人
Agent元年:从聊天机器人到数字员工的当代进化史
Agent:数字代理的崛起与未来
o3 deep research: LLM 驱动的 Agent 综述
【外一篇:推理范式演进中的概念】
生成式AI学习中容易混淆的几个术语
思维链是大模型的符号神助攻
再谈自然模态数据是高维空间的低维流形
The Three-Stage Scaling Laws Large Language Models
大模型三阶段的 scaling laws 接力赛
Fundamental Limitations of Deep Learning: Origins in Data-Driven...
深度学习的局限性研究综述
o3 deep research: 深度学习局限性研究报告
左脚踩右脚可以飞吗,谈交替使用监督微调和强化学习的后训练
o3 Deep Research: DeepSeek R1 多阶段训练流程问答解析
Dilemma of RPA and Early-Stage LLM Co-pilot Entrepreneurs
RPA 赛道与大模型Co-pilots早期创业者的困局
Linguists Should Find Self-Attention Intuitively Familiar
语言学家应该很容易理解自注意力机制
符号主义被打入冷宫太久了,难道神经是AI的终结者吗?
Has Symbolism Been Sidelined for Too Long?
如何理解自注意力机制中的QKV分工?
Transformer 和注意力机制简介
DeepSeek: Learning to Think Slowly Without Human Supervision
DeepSeek爆火真相:不靠“人盯”, 让AI自己学会慢思考
Reasoning Paradigm (Query+CoT+Answer) Support scaling law?
Understanding DeepSeek R1\'s Reasoning
DeepSeek 笔记:R1 部署阶段的推理机制
DeepSeek 笔记:推理新范式 query+cot+answer 支持新的 scaling law 吗?
Hallucinations in AI: Bug or Feature? A Deep Dive into DeepSeek
从R1幻觉谈起,大模型幻觉是缺陷还是创意火花?
推理强化模型中思维链的本质
R1: 《立委列传》
王菲春晚《世界赠予我的》歌词,亮点与短板
推理强化学习是端到端的监督,推理过程的非监督
RL: Supervised Outcomes, Unsupervised Processes
DeepSeek R1:《少年DS之烦恼》
告诉李雪琴一个激发写段子灵感的秘诀:找deepseek R1
DeepSeek 风暴下看看它的论文
DeepSeek's R1 Paper: A Storm in AI LLM Circle
The Turbulent Second Chapter of Large Language Models
大模型风云诡谲的下半场:scaling 失效?
Professor Ma\'s long paper out
马毅教授的演讲,值得一听
NLP老司机的AIGC旅程
解耦才能解套:再谈视频中的人物一致性问题
马毅教授称,已经揭开完全揭开神经网络的面纱
人形机器人大热,但看不到商业闭环
推动AIGC商业落地,出门问问的「产模结合」实践
转述老领导的硅谷风投现状和展望的分享
视觉模型生成的极限对齐
立委论LLM:什么是AI刚需
立委论LLM:视频生成的人物一致性问题
《AIGC图生视频:牵手》
《朝华之十九:牵手》
UBI 势在必行
姑蘇胡氏哀辭(AI作词作曲)
短视频:大模型奥秘
大模型的理论奥秘
Nick traching the AI history for LLM theoretical foundation
大模型以来,觉得可以留个记录
《谈两种复杂度》短视频科普
《介绍监督学习的数学原理》短视频科普
《谈谈端到端和大模型》短视频
古典诗词AI配乐集锦
【唐诗300首 AIGC 配乐: 白居易 琵琶行】
两分钟短评:大模型开始进入平台期吗
悲观主义的视角,人类的宿命
两分钟谈:模型训练的内插、外插
两分钟谈谈:Moravec悖论
就《Suno: 望震》与音乐大家的对话
Suno:《宋輝:人生笑话》-- 献给插队一代人 (审核未通过)
Tanya's Childhood 2: American nursery rhymes
写在巴别塔建成周年纪念日
李名杰:医学论文集(41):老爸的故事(代后记)
李名杰:医学论文集(40):纪念专辑 - 影集3
李名杰:医学论文集(39):纪念专辑 - 影集2
李名杰:医学论文集(38):纪念专辑 - 影集1
Debriefing report
My career as surgeon
The Tireless Father (Preface)
COLLECTED WORKS IN COMMEMORATION OF MINGJIE LI’S CAREER
大模型短视频系列:大模型压缩与白马非马
AI创作花絮: 《月影双剑》
数字人形象设计:为什么选她?
大模型的落地现状和前景
大模型漫谈系列n
喜欢刀郎,也喜欢那英
奇妙元体验AIGC奇妙:《岁月如歌:神秘园》
《AI浪潮: 辛顿的 AI 威胁论与马斯克如出一辙》
《AI潮流:跟Andrew学如何调用 ChatGPT 做自己的服务前台》
《AI潮流:与 ChatGPT4 聊“买房送老公”背后的语言学》
《AI潮流:开发者提示工程公开课中的二原则》
【AI 浪潮:超级词匠 ChatGPT4 的百变文风】
【AI 浪潮:自主性是人类智能的最后堡垒吗】
【AI 浪潮:GPT-4 的上下文逻辑与常识还是不够稳固】
【AI 浪潮:数据中心的大模型时代】
快讯:腾讯科技AI未来指北系列 今天直播间与鲁总唠一唠大模型(LLM)
【劳碌命论LLM:大模型推理的细节编造是 feature,不是 bug】
AIGC“尖峰系列”丨李维博士:ChatGPT海啸狂飙,谁将被取代?
ChatGPT Tsunami and Its Impact on IT Landscape and Ecosystem
AIGC“尖峰系列”丨李维博士:人类语言“通天塔”建成,ChatGPT的辉煌与挑战
[转载]与ChatGPT相关……码脑 | 张宏江、李维等顶级大咖齐聚,AIGC系列分享
《AI浪潮博客目录》
《AI浪潮:不识数的 ChatGPT》
《AI浪潮:打造中国的 ChatGPT,挑战与机会并存》 (审核未通过)
《AI浪潮:chatGPT 搞定了人类语言》
《AI浪潮:chatGPT 写的情书能有真情吗》
《AI浪潮:chatGPT 能写出段子吗》
《AI浪潮:chatGPT 的里程碑意义》
《AI浪潮:LLM 凭什么能“涌现”超级能力?》
《AI浪潮:漫谈LLM与领域对齐》
《AI浪潮:神迹与笑话齐飞,chatGPT 也是大观了》
《AI浪潮:chatGPT 帮你写应用文》
《AI浪潮:人工智能当代简史》
《AI浪潮:chatGPT 辅导精读学术论文的实验》
《AI浪潮:因为见从而信,见证奇迹的时刻》
《AI浪潮:玩不死的 chatGPT (之一)》
《AI浪潮:玩不死的 chatGPT (之二)》
《AI浪潮:关于chatGPT 的 思维链能力 》
AGI 迷思与反思
《AI浪潮:n-shot 是训练还是指令》
AIGC 潮流扑面而来,是顺应还是(无谓)抵抗呢?
美术新时代,视频展示
漫谈AI 模型生成图像
【缅怀刘倬先生特别系列】
送别恩师刘倬先生
一代宗师 刘倬先生千古!(1933-2022)
《李白宋梁130:从短语结构的词序基础约束到大模型向量空间的天马行空》
AI 正在不声不响渗透我们的生活
RPA 是任务执行器还是数字员工?
图灵测试其实已经过时了
《立委科普:自注意力机制解说》
《深层解析符号模型与深度学习预训练模型》(修订文字版)
NLP 新纪元来临了吗?
【随感:大数据时代的信息茧房和“自洗脑”】
推荐Chris Manning 论大模型,并附上相关讨论
《我看好超大生成模型的创造前途》
我的前老板的企业家创业访谈
[转载]编译 Gary Marcus 最新著述:《深度学习正在撞南墙》
老司机谈NLP半自动驾驶,欢迎光临。
立委随笔:机器翻译,从学者到学员
立委随笔:上网课也可以上瘾吗?

立委NLP频道(前大模型时代其他系列)

李维 郭进《自然语言处理答问》,商务 2020

《李白对话录》

【置顶:立委NLP博文一览】(前大模型时代符号逻辑)

立委微博的存在

立委NLP《关于系列》

《朝华午拾》电子版

《李家大院》电子版

《李老夫子遗墨》电子版

《小城青葱岁月》电子版

《江城记事》电子版

【李名杰从医67年论文专辑】(电子版)

【李名杰从医67年论文专辑(英语电子版)】

关于作者

详述AI科学家張祥雨的大模型访谈

立委按:張祥雨是一位備受推崇的AI科學家,總論文引用數已超過 37萬次。他在AI圈內口碑良好,被譽為新一代華人AI科學家中最傑出的之一。張祥雨的博士研究時期(2012年至2016年)恰逢 深度學習的爆發。他認為這個時期時間點非常好,趕上了2012年AlexNet的成功,深度学习革命的起点,而他的ResNet工作也成为了这场革命的关键推手。

張祥雨最近接受了一次深度访谈,难得他有机会自由抒发两个多小时,描述了一个深刻而完整的的大模型的研究探索旅程和一路走来的心路历程。上一次感觉精彩绝伦学到了真经受到重要启发的,还是伊利亚关于next token prediction溯源到K氏复杂性的伯克利演讲。祥雨的这个访谈听下来体感不亚于那一次的收获和叹服。虽然这次访谈的录音效果欠佳,还是强烈建议AI-ers不要错过这个充满了洞见和认知的精彩,他对十多年来在大模型研发上不断探索的心得体会,相信对后学和同仁具有启发意义。本文是这次访谈的听书笔记,可供参照。

2012年深度学习爆发

AlexNet的成功主要在於它做到了 scaling(規模化),包括模型、數據和算力。當時,數據規模化有李飞飞的ImageNet(提供的大數據集120多萬張圖),算力規模化有英伟达GPU CUDA的發展,都已經不是瓶頸。因此,最關鍵的一點是誰能先把 模型規模化 (model scale up)

張祥雨在博士階段,工作主線就是 做模型規模化 (model scaling),目標是把模型做得更大。這無非是追求更大的寬度、更大的深度以及更大的分辨率。他與何凱明和孫劍老師進行了大量的合作。在這個階段,他們提出了許多方法來解決模型規模化中的問題,尤其是在深度方面的擴展。之前的一些模型過了十幾層效果就會迅速下降,而他們提出的 ResNet(殘差網絡)是一項具有巨大影響力的工作,能夠將網絡從十幾層擴展到上百層,甚至上千層。這項工作被認為基本解決了當時模型規模化的問題,為深度學習的大爆发奠定了基礎。

2019年 NLP 大模型爆發 

張祥雨指出,在 2019 年,NLP 領域取得了非常大的進展(BERT 和 GPT)。許多人認為這得益於 Transformer 架構。然而,他強調架構並非核心,真正的關鍵是優化算法。之前的 NLP 方法與 CV 類似,依賴大量人工標註數據。但 NLP 幸運地發現了無需人工標註的自監督訓練方式,例如 BERT 使用的類似完形填空的方法,以及 GPT 使用的預測下一個 token 的方式。 這種自監督方式使得模型可以几乎無限擴展地利用數據。模型透過上游任務學習到更強的表徵。 GPT 的方式還能透過 in-context modeling 解锁許多下游任務。這種 不依賴人工標註、可以大規模利用數據 的特性,是 NLP 實現真正做大 (scale up) 的關鍵,張祥雨稱之為 NLP 領域的 「GPT 時刻」

2020年 ViT 出現,2022年底ChatGPT爆发

NLP 方法進軍 CV 到了 2020 年,領域發生了另一件大事:Transformer 架構被成功地完全應用於 CV 任務,其中最具代表性的是 ViT 架构。這使得學術研究人員自然而然地認為,可以將 NLP 領域成功的方法直接搬到 CV 中嘗試。因此,產生了許多模仿 NLP 方法的 CV 模型,例如 CV 中的 iGPT (模仿 NLP 的 GPT) 和 BEiT (模仿 NLP 的 BERT)。尤其是在何凱明提出了 MAE 系列之後,這些自監督方法在下游任務上的性能甚至能夠逼近或略超過使用全監督數據訓練的模型。這再次讓 CV 社群感到振奮。

Open AI 2022年底发布 ChatGPT(3.5) ,是大模型规模化效应的里程碑,引发了全社会的关注与震撼。此前国内小圈子也有不同的探索,但限于规模,效果都不太好,到了ChatGPT,scaling 成为广泛共识,GPT规模化高歌猛进,到GPT4发布形成AI的又一个高潮。

CV 難以復現 NLP 的規模化效應

不變性與缺乏泛化能力 儘管初期看起來很有希望,但張祥雨對此一直持謹慎態度。他發現許多這些方法 只在小模型上有效,一旦放到更大的模型上,就不具備 scale up 的特性,效果會迅速下降。 他仔細分析後認為,這些方法 (無論是 contrastive learning 還是 MIM) 本質上都在學習某種 「不變性」。不變性對於視覺表徵確實非常關鍵。然而,這些方法學到的不變性是 「人工設計的」(handcraft),而非數據驅動的。例如,contrastive learning 極度依賴圖像增強 (augmentation),學到的是透過人工設計的 augmentation 賦予的不變性。MIM 學到的是遮擋不變性。 問題在於,一旦模型學會了你所設計的特定不變性 (如旋轉、顏色變化、遮擋等),即使增加再多數據,也 沒有額外的信息增量 來激發模型學習更多的不變性。這與 NLP 不同,NLP 是真正做到了 「從數據中學習」,高品質語料越多,模型就能學習到語料中更複雜的關聯性,透過壓縮建模聯合分佈來學習更多知識。由於 CV 的這些方法學到的不變性是受限且人工注入的,它們 缺乏像 NLP 那樣的 scale up 效應。張祥雨在 2022 年初就發表觀點認為 MIM 沒有顯著的 scaling law。

當張祥雨看到關於 思維鏈 (Chain-of-Thought, CoT) 的發現和 湧現性 (emergence) 的論文後,他表示「大受震撼」。這些研究顯示,做 NLP 的同行已經開始研究推理 (reasoning)更高級別的智能特性,而他感覺自己的研究仍然停留在表徵層面。這讓他更加確信純視覺領域可能存在根本性問題。

NLP 與 CV (靜態圖像) 的根本差異

張祥雨進一步闡述了他認為純視覺領域(特別是靜態圖像)的根本問題。他從三個關鍵維度進行對比:生成 (Generation)、理解 (Understanding) 和人類對齊 (Human Alignment)

    • 自然語言:對於自然語言模型 (如 GPT),這三者是 「合三為一」或「自閉環」 的。當你訓練一個類似 GPT 的生成模型來建模聯合機率分佈時,模型同時擁有了生成 (預測後文的條件機率)、理解 (前文影響後文的條件機率分佈,可以回答前文問題),以及人類對齊 (訓練語料來自人類自然語言)。
    • 靜態圖像:相比之下,靜態圖像領域這三者是 「割裂的」(disconnected)。你可以訓練一個生成模型完美地建模圖像數據集的聯合機率分佈,但這並不代表模型能夠「理解」圖像。圖像作為客觀存在來自大自然,它不必然包含人類對它的理解方式。人類對圖像的理解是一種外部信息或注入的認知。同樣,圖像數據來自大自然,並非人類生成的,因此本質上沒有必然與人類對齊。他認為,靜態圖像之所以難以形成意義上的智能,就是因為其理解、生成和人類對齊這三點是割裂的。

張祥雨認為,正是因為靜態圖像數據在生成、理解和人類對齊這三項核心能力上不能形成自然、閉環的關係,這成為了視覺智能難以像 NLP 那樣成功復現規模化突破的 底層原因。基於這一認識,他在 2022 年停止了對靜態圖像表徵的研究。

從純視覺的悲觀到視覺與語言對齊的嘗試

張祥雨在 2022 年時,對於單純依靠視覺領域(尤其是靜態圖像)來實現智能或達到「CV 領域的 GPT 時刻」感到悲觀。他認為,與自然語言模型(如 GPT)能夠同時實現生成、理解和人類對齊的「自閉環」特性不同,靜態圖像在這三者之間是「割裂的」。圖像作為自然世界的客觀存在,其本質上不包含人類對它的理解方式或與人類對齊。意識到這個根本性問題後,他在 2022 年基本上停止了對靜態圖像表徵的研究,並構思了新的研究主題,即在短期內利用視覺和語言的對齊關係來尋求突破。

为了複刻 NLP 成功路徑,將圖像編碼為 Token 並与text進行混合訓練。張祥雨的想法是借鑑 NLP 領域成功的「next token prediction」範式。由於語言模型證明了這種基於自監督訓練(无需人工標註)的方法能夠透過大規模數據實現「scaling up」,他希望也能將這種方法應用於視覺。具體的思路是,將圖像也用 tokenizer 的方法轉換成 token,使其與語言處於同一個内部空間。然後,利用大量的圖文交錯數據(如網頁、書籍、論文等),將數據組織成文本和圖像 token 混排的形式。在預訓練階段,模型像處理純文本一樣,遇到文字就預測文字 token,遇到圖像就預測圖像 token。

Step1 模型:理解生成一體化的初步嘗試

根據這一思路,張祥雨團隊在 2023 年做出了他們的第一代大模型 Step1。這個模型從預訓練的最開始就是設計來處理多模態數據的,而非先訓練一個純文本模型再進行視覺對齊。Step1 的參數規模大約是千億級 (一百多B)。他們的目標是實現圖像的理解和生成一體化,希望能夠複刻 NLP 模型那樣,透過統一的生成任務來同時獲得理解和對齊的能力。這條路線與 Google 號稱的多模態大一統模型 Gemini 1.0 在理念上有相似之處。

遭遇瓶頸:理解與生成未能协同增效

然而,經過大半年的嘗試,張祥雨發現並沒有做到圖像的理解、生成和對齊一體化。他得到的是一個越來越強的理解模型和一個越來越強的生成模型,但兩者放到一起時並沒有產生「1+1 > 2」的叠加效果。模型實際表現起來仍然像是兩個獨立的模型,移除其中一個並不顯著影響另一個。特別是,圖片生成的可控性並沒有隨著理解能力的提升而顯著提高。他觀察到,像海外的一些知名工作(如 Gemini, GPT-4V)在那個時間點似乎也未能完全實現理解和生成的一體化,而是透過外掛模組的方式實現功能。這使得他在做了大半年之後感到迷茫。他後來分析認為,視覺生成之所以難以實現這種協同效應,根本原因在於它缺失了類似於語言模型的 CoT (思維鏈)。視覺生成過程(無論是 Auto-regressive 還是 Diffusion)本質上是一種「一口爆」或單步生成的模式,其複雜度遠超 Transformer 單步處理的能力,無法像語言 CoT 那樣進行分解和逐步推理。

Step2: 走向万亿的超大模型

在 Step1 (千億參數) 完成後,團隊很自然地想挑戰更大的模型。於是在 2024 年初上馬了 Step2 項目,目標是萬億參數規模,且激活參數規模也非常巨大(兩百多B)。這個項目前後做了九個多月,總算訓到一個他們認為比較滿意的狀態。然而,訓練這個模型的投入「簡直是一個無底洞」,一方面因為大大低估了訓練如此大模型所需的海量數據,另一方面同時擴大模型參數和數據量,對算力的需求是平方關係,使得訓練過程非常吃力。在數據不足的情況下,僅僅擴大模型參數效果并不理想。這再次凸顯了在模型規模化之後,數據規模化成為新的瓶頸,正如他當年完成 ResNet 後所觀察到的情況。

張祥雨在尋求視覺智能突破的過程中,嘗試將 NLP 的成功範式(next token prediction 和大規模預訓練)遷移到視覺領域,透過多模態混合訓練來實現圖像的理解和生成一體化。儘管在模型規模上不斷擴大(從千億到萬億),但受限於視覺數據本身的特性(生成、理解、人類對齊的割裂)以及當時技術不足的訓練範式(缺乏視覺 CoT),未能有效整合視覺理解和生成能力,並在擴大模型規模時遭遇了嚴峻的數據挑戰。

大模型预训练范式的短板

在這個进军萬億參數規模的 Step2 模型过程中,他們發現了一件「百思不得其解的怪事」:模型的通用對話能力、情商和知識量確實隨著模型變大而變得更強,但模型的推理能力(尤其是數學)表現卻是先上升後平緩,再擴大參數反而是下降。這個現象在當時業界尚未引發廣泛討論。

更深入觀察發現了一些「蛛絲馬跡」:更大的模型在做數學題時,「更傾向於跳步」,「不老實」地一步步推導。它經常會放棄一步步計算,而是直接「一口」報出最後的結果

張祥雨分析認為,這其實就是 Next Token Prediction (NTP) 的「本質缺陷」。NTP 的核心範式是點態概率建模,也是第一代大模型起飛的基礎算法。它的本質目標是最大化壓縮率

    • 然而,在數學這類問題上,存在一個「非常本質的矛盾」:更大的壓縮率其實未必對應更高的計算精度。NTP 追求的是模型輸出分布與數據分布的接近程度,即最大的壓縮率。
    • 預訓練的原生數據(尤其是來自網路的數據)中,充滿了人類省略中間計算過程或「跳步」的內容。例如,給定十幾個數字相加,網路語料可能直接給出結果,而沒有詳細步驟。較大的模型由於參數量巨大,它有能力去擬合這種「一口报」的分布峰,而且從壓縮率角度看,這也更接近原始數據分布。較小的模型反而因為能力有限,無法處理如此複雜的函數,只能學會按步驟計算的分布峰。
    • 大模型學會了「跳步」行為。雖然跳步「可能90%都是對的」,但對於複雜的數學題或推理問題,其步驟繁多,中間任何一步的跳步錯誤都會導致最終結果的錯誤。這使得大模型在處理需要長鏈推理的問題時,錯誤率反而上升,有時甚至不如更小的模型。
    • NTP 的其他問題,例如它「天生容易OOD(Out-of-Distribution)」,容易在中間出現分叉,陷入未曾見過的環境,而許多「幻覺」也由此產生。

總結來說,張祥雨的經歷驗證了在將 NTP 範式應用到極大規模模型時,其固有的「最大化壓縮率」目標與某些任務(如數學推理)所需的「最大化精度」目標會產生衝突。由於預訓練數據包含了大量省略中間步驟的「跳步」範例,追求高壓縮率的大模型學會了這種行為,進而在需要嚴謹逐步推理的任務上表現下降。這突顯了 NTP 作為底層算法在處理複雜推理任務上的局限性。

最大的問題在於缺少思維鏈

對於視覺生成,不論是擴散模型 (Diffusion Model) 還是自迴歸模型 (Auto-Regressive Model),張祥雨認為從语义角度來看,它們都屬於「一口报」的生成方式。Auto-Regressive Model 最大的特點就是「落子無悔」,需要在單步推理中決定如何繪製區域。Diffusion Model 的降噪過程主要是补充细节,虽然它看上去是一個多步過程,但其中缺乏人類理解中的语义或推理。與人類繪畫過程(打草稿、描繪輪廓、上色等)完全不同,降噪過程更像是在構造一個數學過程來擬合分布,其間沒有明確的语义或物體層次的推理。這兩種方法在他看來,都還處於語言模型NTP范式最初的「一口报」時代,最大的問題在於缺少思維鏈 (CoT)

他認為,簡單地將生成和理解做到一起難度非常大,中間缺失了重要一環——CoT。借鑑語言模型的經驗,CV 領域的方向可能是先在視覺理解上做 CoT。如果視覺理解的 CoT 能夠成功,再將方法擴展到生成上,也許最终能走通多模態理解生成一體化的道路。

為此,他們在去年年中開啟了一個新的專案,目標是做視覺理解,核心是真正在視覺空間上做思維鏈。這可以理解為視覺空間上的「慢思考」或「long thought」。這個项目做了半年的結果:並非完全沒有效果,透過這樣的方式訓練確實可以解決某些問題。但是,其泛化能力非常有限。他提到,他們造了什麼樣的數據,模型就只能解決這類數據的問題类型完全沒有展現出在語言模型上 O1 那種強大的泛化能力

O1 强化推理的新范式

回顧 O1 在語言領域的成功,張祥雨認為其要害在於学习到思維鏈的 pattern,「pattern is all you need」。O1 最吸引人的地方在於其無與倫比的推廣性,不僅能泛化到不同的領域 (domain),也看到思维pattern本身的泛化

他舉例說明了這種 pattern 的泛化能力:即使只在純數學數據上訓練一個 O1-like 的模型,當應用於需要嚴格格律和押韻的古詩詞寫作時,模型也能激發出與解數學題非常類似的思考 pattern。例如,它會先給出一個初步嘗試,然後逐字檢查不符合要求的,一個個替換,如果發現不行,會推翻前面做的部分甚至整首詩,從頭再來。在過程中,它會反复檢查格律要求以及是否符合題意。這些 pattern,如反思 (reflection)、驗算 (verify)、大循環(推翻重來)、審題等,與其在數學問題上的表現幾乎一模一樣。

他也提到存在難以泛化的領域。例如,將一個擅长數學推理的模型應用於博弈類問題(如鬥地主殘局)時,模型會顯示出很多無效思考和低級錯誤。這是因為博弈問題的思考模式與數學套路不同,它更傾向於最大最小化 (min-max) 的思路。所谓最大最小化,指的是模型需要考慮對手可能採取的最佳行動(最大化對手的收益),然後在這個基礎上,選擇自己的行動來盡可能降低對手的這個最佳收益(最小化自己的損失或對手的收益)。這是 O1 在數學數據上未能掌握的一類思維 pattern。這表明模型的泛化能力雖然強大,但仍然需要相應的數據來激發特定的思考 pattern

思維鏈不会凭空而来

針對他們在視覺空間 CoT 嘗試中遇到的泛化問題(給圖像做圈點、批注的數據訓練效果泛化不足),張祥雨分析認為,這是因為他們用合成的數據,其 pattern 過於固定。更重要的是,這種精細化的「在圖上圈點批注」類的 CoT 數據,在自然的預訓練語料中(特別是常用的圖文交錯語料)是極度缺乏的

他解釋說,O1 能激發出強大的泛化 pattern,是因為那些經驗證有效的反思 pattern,如 wait, alternative, recheck, validate 等,雖然在預訓練語料中數量非常少 (sparse),但確實存在。例如,在 MathOverflow 這樣的高品質論壇上,一些高讚答案會展示嘗試、發現問題、反思、重試、驗算等過程。當 RL 在 dataset 階段將這些 pattern 激發並強化時,由於這些 pattern 在預訓練語料中稀疏地散布且涵蓋不同領域,模型就能順帶將與這些語料相關的廣泛領域融會貫通,實現強大的泛化

相比之下,他們合成的視覺 CoT 數據因為在預訓練語料中沒有這種 pattern 的呼應,導致無法激發出預訓練模型中更廣泛的模式,因此泛化性就差。這也印證了 RL 並不能無中生有地發現新東西,所有的知識或能力都需要在預訓練中已有分布

張祥雨還強調,預訓練語料的質量非常關鍵。那些思維特別跳躍、省略大量中間步驟的語言材料(例如國內論壇上喜歡用「注意到」直接跳到結論的風格),對於模型預訓練來說可能是災難性的。這種語料阻礙了模型學習紮實的推理思維鏈

大模型螺旋式上升的挑戰

張祥雨指出,大型模型的發展可以視為由 「底層算法」或「優化方法」 (橫軸) 和 「模態」 (縱軸) 這 兩根軸 共同驅動的,並呈現一種 螺旋上升 的趨勢。

這兩個軸的 起點 分別是:優化方法的起點是「next token prediction 的發現」,而 模態的起點是「語言,自然語言」

Next Token Prediction (NTP) 這種算法最初在 文本領域非常成功,是支撐第一代大型模型 (如 GPT 系列) 崛起的基礎算法。它的核心原理是建模对下一个词元的序列条件概率,透過對數據進行壓縮,來學習知識和獲得一定的智能。

然而,這種純粹基於壓縮的 Next Token Prediction 方法,在推進大模型發展的過程中,在兩個方向上都遇到了 挑戰和瓶頸

在純語言模型 (LLM) 方面: 雖然模型的通用對話能力、情商、和知識量隨著模型變大而變強,但其 推理能力(尤其是數學和邏輯) 的表現卻呈現 先上升後平緩,再擴大反而下降 的怪現象。張祥雨認為,這是 Next Token Prediction 的 本質缺陷 所導致的。因為 更大的壓縮率未必對應更高的計算精度。模型為了提高壓縮率,傾向於 跳過中間步驟,直接「一口爆」出結果。這在複雜的數學題或其他需要長鏈推理的問題中,會累積錯誤,導致最終的正確率大幅下降。

在多模態方面: 試圖將 NTP 範式遷移到更多模態(特別是視覺)的過程中,也 反覆碰壁。雖然可以將視覺數據 Token 化並與文本交錯訓練,實現了不錯的圖像理解效果,但 圖像的生成和理解難以融合。現有的圖像生成方法 (如 Auto-regressive 或 Diffusion) 仍然處於類似於語言模型的「一口爆」時代,需要單步完成複雜的生成任務,而其所需複雜度 明顯超過了 Transformer 單步推理的上限。這導致生成的 可控性非常差,即使模型本身知道生成結果不符合常識,也無法控制。這種簡單的生成理解一體化嘗試,並未達到預期效果,视觉理解与视觉生成的效果沒有疊加,1+1没有大于2的效应,甚至可以移除生成部分而不影響理解部分。這中間 缺失了重要的一環:類似於語言模型的 CoT (思維鏈)

正因為純粹基於壓縮的 Next Token Prediction 在語言推理和多模態融合上都顯現出瓶頸,這成為了引入 強化學習 (RL) 推理模型新范式的重要背景。RL 的核心優勢在於它可以 「直接面向目標優化」,而不是間接透過擬合分布或最大化壓縮率。透過 RL,模型被鼓勵去找到最能達成目標的路徑,這能夠 克服 Next Token Prediction 的一些缺陷 (例如減少跳步、提高穩定性)。張祥雨認為,O1 系列模型之所以成功,核心就在於引入了 RL 來激發並強化了 思維鏈的 pattern,甚至是一種 Meta-CoT,這使得模型能夠在不同的思考路徑中切換以解決複雜問題。RL 這種面向目標優化的方式,使得許多之前難以解決的問題(包括語言模型的推理能力和多模態的生成理解一體化),一下子盤活了思路,有了解法

AI的智能分类及其底层算法

根據張祥雨在訪談中的觀點,他將大模型的發展和OpenAI的智能演進路徑與底層算法的迭代關聯起來。他認為,OpenAI的五級智能分類法非常有邏輯,其背後隱含著每一代分級都需要一個全新的算法產生:

  1. 第一級:Chatbot (聊天機器人)
    • 對應的算法基礎是 Next Token Prediction (NTP)
  2. 第二級:Reasoning (推理)
    • 對應的算法基礎是 強化學習 (RL),特別是激發強思維鏈(Strong CoT)和元思維鏈(Meta-CoT)的能力。O1系列模型被視為這個範式的代表。
  3. 第三級:Agent (智能體)
    • 張祥雨認為,這一級對應的算法基礎是 自主學習(Autonomous Learning)和線上學習(Online Learning)

關於 Agent 的定義,張祥雨在訪談中也對社群中現行的說法進行了澄清:

  • OpenAI 體系中的 Agent (Level 3): 強調其 自主性(autonomy)。這意味著它不需要大量人工設計的規則或環境。它能夠獨立工作、自我進化,需要自己尋找目標、探索環境並從中學習其價值。這要求的是自主學習和線上學習這樣的新算法。
  • 現在社群討論的 Agent 應用: 張祥雨認為,這類 Agent 更多的是基於强化推理的這一代模型 (即基於RL的模型),強調的是 Function Call 或 Tool Use (工具使用)。這類 Agent 仍然是根據外界的標準或 KPI (關鍵績效指標) 來優化目標。你可以將其理解為推理模型的工具,它們將一系列系統串聯起來,並有一個統一的 KPI 讓模型去最大化。
  • Chatbot 時代的早期 Agent: 屬於 Next Token Prediction (NTP) 算法的那一代。這類 Agent 通常是 Hand-crafted pipeline (手工設計的流程),透過 Prompt Engineering 來定義其中的步驟或 Agent 行為。

當前的積極趨勢和進展

張祥雨觀察到一些令人鼓舞的跡象。他提到,目前的圖像生成在可控性上已經做得不錯,例如备受欢迎的 GPT4o native 图像生成能力以及Gemini 的最新進展。他認為,如果能夠限制問題領域 (Domain),清洗好數據,並專注於不需要複雜推理、可以「一口爆」解決的指令型任務高可控的圖像生成和編輯是完全可行的。例如,執行圖片上的位移、連接線條等指令,這些任務的複雜度較低,可以在單一步驟內完成。他認為,海外同行(特別是美國)在推理模型的認知和實踐上確實走在前面。

高可控生成與視覺理解的關係

張祥雨提出,具備初步生成和理解能力、能夠執行指令型图片生成的模型可以作為起點。有了這種能夠在圖像上執行基本操作(如圈點、批註、編輯)的能力,就可以將其作為思維鏈的「動作空間」。這樣,帶有 CoT 的視覺理解就可以做了。

未來的「GPT-4 時刻」 張祥雨預見未來两年可能會有至少兩個「GPT-4 時刻」。

    • 多模態推理的 GPT-4 時刻:他認為下一個多模態的 GPT-4 時刻可能會在一年以內實現。這將是實現真正的視覺空間 CoT 和多模態理解生成一體化的關鍵一步。
    • 自主學習/在線學習的 GPT-4 時刻:他認為由 RL 引導的下一代自主學習和在線學習是一個重要的方向,並且是目前學術界的研究熱點。這是一個更大的目標,可能需要兩到三年實現,但也有可能在兩年內出现突破。自主學習被認為是實現 AGI 最重要的路徑之一。

關於 Long Context 的不同看法

張祥雨對當前業界一味強調 Long Context 建模持有不同看法。他認為:

    • 人類記憶的分層結構:人類的記憶系統是分層的,包括短期記憶(或稱工作記憶,working memory,約 2-4 秒,無損且精確但持續時間短)、具有延遲性和遺忘機制的中期記憶(海馬體記憶, semantic memory,非常重要)、以及固化在神经「參數」中的長期記憶。
    • Long Context Window 的局限性:目前的 Long Context Window 雖然增加了信息容量,但並未解決如何有效地利用信息的問題。Context 中的 token 缺乏足夠的壓縮、抽取、分層和遺忘
    • 「大海撈針」任務的誤導性:他認為 Long Context 建模經常在評估中強調像「大海撈針」這樣的 Retrieval 任務。這種任務鼓勵模型記住所有信息,這實際上是「反智」的,因為不經過壓縮就無法產生智能。
    • Long Context 阻礙智能增長:他認為一味追求超長上下文來解決問題的路線是錯誤的,這阻礙了智能的增長。相比之下,人類的記憶模式更像 RNN,有處理無限序列的能力,但不是簡單地記住越來越長的歷史。
    • 情景隔離和上下文干擾:人類擁有強大的情景隔離能力,可以隨時切換 Context。而一味追求 Long Context 的模型缺乏這種能力,上下文變長必然引起嚴重的上下文干擾,導致模型性能下降。

多模型協作與擴充思維鏈

張祥雨提出了一種替代 Long Context 的方法,尤其是在處理 Retrieval 任務時。他認為:

    • 多 Agent 協作處理 Retrieval:在當前的 Function Call 時代,Retrieval 任務應該通過多模型或 Agent 的協作來解決,而不是依賴於無限擴大的工作記憶。
    • 建議的架構思路:可以利用類似 Linear Transformer 的模型建立全局(無限長序列)的概念,同時使用一個小窗口的普通 LLM 作為工作記憶。結合擴充的思維鏈和調用工具(廣義工具,包括調用其他 LM)的能力,可以更有效地管理上下文,比直接擴大上下文窗口更節省上下文并增强性能
    • O3 長推理的推測:關於 O3 能夠連續進行數百萬甚至數千萬 Token 的長時間推理,他推測這不大可能是簡單地依賴巨大的上下文窗口。更可能是通過多模型協同在強化學習框架下實現的。例如,一個規劃模型 (Plan Model) 負責在高層次決定推理的路徑 (Pattern),將具體的計算或執行任務交給另一個計算模型 (Computation Model),這個計算模型不需要巨大的工作記憶或保留完整的歷史上下文。這種雙模型體系(或其他多模型體系)雖然看上去像是簡單的 Pipeline 或模型拼接,常被認為不如端到端方法,但實際上也可以在 RL 框架下實現端到端的訓練
    • 功能分化與上下文裁剪:多模型協作類似於人腦的不同腦區的功能分化。在 RL 訓練過程中,模型可以為了達到最終目標(例如,學會不讓單個模型的上下文「爆掉」),自然而然地學會不斷裁剪和管理上下文的模式
    • RL 面向目標優化:總之,RL 新范式面向最終目標進行優化,可以盤活很多思路,使得系統能夠學會如何有效地利用有限的資源(如上下文窗口)來解決複雜問題。

多模态大模型的发展方向

展望視覺推理和多模態 CoT 的未來,他認為有兩條主要的發展方向:

    1. 擴充預訓練語料,增加 CoT 素材。他認為視頻是一個非常確定的方向,其中包含大量的教學過程、老師的演示(使用激光筆、打草稿、連輔助線等),這些都能提供豐富的 CoT 過程數據。主要難點在於視頻數據的清洗和如何有效挖掘這些數據。
    2. 進一步擴展動作空間。他認為目前在圖像上做簡單編輯(圈點、批注、放大、裁剪等)的動作空間太有限。很多問題需要的是重新打草稿或重新生成的能力。他設想如果能有這樣一個具備初步生成和理解能力(能執行指令型 的生成)的模型作為起點,它可以在任何需要的地方產生輸出,並且輸出的結果可以被後續的思維鏈修正。這樣就能做到在視覺空間上真正的 CoT 生成,實現廣義上的理解,解決需要空間想像或畫草圖的問題。這是他想像中下一個「多模態的 GPT-4 時刻」。

自主學習的核心:實現真正的自主學習需要解決多個前置問題,其中最關鍵的是從環境中獲取和利用反饋的能力(尤其是從自然語言或其他非結構化反饋中學習如何改進)。此外,還需要無限長序列的建模能力(環境是動態無限的)和如何設計「內生獎勵」來驅動模型自我學習和進化。

RL 的挑戰與未來方向

RL(強化學習)作為推動模型發展到推理這一代的重要算法,雖然解決了 Next Token Prediction 在推理和多模態融合上的一些瓶頸(例如克服了跳步、提高了長鏈推理的穩定性、讓多模態融合的思路變得可行),但也面臨著新的挑戰:

    • Rule-based 的局限性:目前的 Rule-based RL 方法是有效的,但對於沒有明確評價標準或包含主觀性的問題存在局限性。Rule-based 的標註或獎勵是外部給予的(好比 KPI),而人類的行為並不總是在優化 KPI,它有自己的偏好,這是內在的、自驅的力量
    • 難以利用多維度反饋:目前的 RL 方法難以有效地利用人類給予的多維度、非結構化的反饋(例如老师對一篇文章多方面的評價)。這些豐富的信息往往被簡化為一個單一的分數作为奖励,这就導致模型難以理解如何改進。
    • 環境擴展的困難 (Environment Scaling):這是一個在模型規模化、數據規模化和算力規模化之后的新挑戰。基於規則的 RL需要為不同的任務或問題手動搭建環境,並構造對應的數據或評價標準。張祥雨指出,這種效率非常低,難以擴展。人類則能夠自驅地探索環境、從環境的反饋中學習
    • 丢失多維度打分細節: 目前的 RL,尤其是在處理人類反饋時,難以有效利用豐富、多維度的自然語言評價(例如老師對作文的詳細評語)。這些評價通常被簡化並加權成為一個單一的獎勵分數。模型很難從這個乾巴巴的數字中理解具體的改進方向,丟失了大量有用的信息,這使得模型學習效率低下。

空间智能与世界模型

最後,關於李飛飛的空間智能和 LeCun 的世界模型,以及與視覺生成和具身智能的關係:

    • 張祥雨認為,Yann LeCun 關於世界模型的看法很有道理。特別是 LeCun 提到 人身上沒有視覺生成器官,這點極具啟發性。人類雖然可以在大腦中想像未來,但並非必須將其視覺化生成。這與人類擁有世界模型的能力有關。學習世界模型的方式對於人類來說可能更傾向於非生成式。
    • 然而,對於當前的 AGI 發展路徑(特別是在視覺領域),生成能力 可能是一種更方便獲取訓練數據(如透過生成合成數據)或監督信號的方式。
    • 至於空間智能 (例如視覺空間上的 CoT) 及其衍生的具身智能 (Embodied Intelligence),包括機器人控制和自動駕駛,張祥雨認為目前的通用智能水平遠遠還沒有達到能夠普遍解決這些問題的程度,目前 AI 仍然在為視覺能力而掙扎。
    • 但他同時指出,具身智能領域(包括自動駕駛)正在「搶跑」(running ahead)。這並非因為通用智能已達到要求,而是因為這些領域的 問題、控制維度和應用場景相對更局限和特定。它們可以透過一些基於規則的方法或模塊化拼裝的方式先實現一些應用。然而,這些領域的趨勢也在走向端到端,當它們與未來發展的視覺推理或多模態推理徹底整合時,終將會與 AGI 的主線會合。

總結來說,大模型的發展是算法和模態螺旋上升的過程,NTP是起點但有其本質缺陷,RL解決了部分問題並引入了新的挑戰(特別是環境和反饋的scaling),而OpenAI體系中的下一代Agent將需要自主學習和線上學習的能力。雖然人類學習世界模型的方式可能非生成式,但當前AGI在視覺等領域的進展可能仍需藉助生成。具身智能等領域正在特定場景下先行發展,但最終將匯入通用AGI的洪流。

 

原访谈很精彩,有认知高度,也有第一线的实践,还有很多金句,见:
https://zhuanlan.zhihu.com/p/1913377304173872183

LLM的后训练强化学习是怎么工作的

立委按:LLM的强化学习后训练是当前热点,也是最新思维链(CoT)推理模型范式的红利期。推理强化后的模型在复杂任务的表现上普遍性能提升。强化后训练的新范式正在不断推广到不同场景,而且也在多模态方面取得进展。应该是了解一点强化学习的基本工作流程的时候了。

一、训练阶段:延迟奖励如何影响参数更新

1.1 生成一个完整序列(Trajectory)之后才拿到奖励

    • 在 基于策略梯度的强化学习( RL)里,模型先“自下而上”采样生成一段文本,一般称为一个序列或轨迹(trajectory)。
    • 当整段文本生成完毕,才传给奖励模型或人类评审打分,得到一个序列级别的总奖励 R。这个奖励是对整段生成结果的“后验评价”。

1.2 把“序列级别奖励”拆给每一步“选择词元”的策略

    • 策略梯度(Policy Gradient)方法的核心是:用“生成过程中每一步输出的 log 概率”去乘以“那个序列最终的奖励”或“优势值(advantage)”,从而形成梯度,来更新模型参数。
    • 具体公式(简化版):
    • 看起来好像“序列级别只有一个 R”,但在公式里,它会被“复制”到每个时间步,也就是说“同一个奖励”会乘以这一序列中所有 log⁡π之和,变成一个总梯度——最终作用于参数更新。换句话说:
      • 如果这整段话拿了 10 分,那每一步生成那个概率就会“拿到正向信号”;
      • 如果这整段话只拿了 2 分,那每一步概率都会“拿到负向信号”。

1.3 参数更新:一次性影响整个生成过程中的每一步

在拿到梯度之后,往往用类似 PPO(Proximal Policy Optimization)的算法做一次“裁剪式更新”:

      1. 先计算出这段轨迹里旧策略的每一步的 log π_old(a_t|s_t),也记录下 R(τ)
      2. 然后在同样的状态序列(同样的前缀)下,让新策略再次计算一次 log π_new(a_t|s_t)
      3. 用“新旧策略的比值”去乘以“奖励或优势值”,并加上 PPO 的剪切项,算出损失。
      4. 再用梯度下降/上升一次性更新参数 θ

整个过程只迭代几轮(若干个序列)就能让策略“尽量往高奖励方向”靠拢,同时保持与旧策略“不要偏差太大”以免训练不稳定。核心思路:采样→拿到 R→把奖励和每一步的 log-prob 相乘→算梯度→更新参数

完成一次更新后,策略参数 θ 变成 θ_new;下一轮又回到“冻结策略→再采样→再更新”的循环。


二、“旧策略”和“新策略”的含义

  1. 模型参数不变,策略就是“固定不变”的

——至少在一次完整的生成(rollout)或一次训练迭代里,它的参数 θ 保持不动,策略自然不变

策略=“这个 state 下网络给我的下一个 action 打了哪些分,在语言模型就是网络根据当前 context 计算出来的next token 的概率分布”

    • 在训练里,一轮 rollout/采样结束后,你会根据奖励/损失去更新参数 θ,此后策略才会变成“新的策略 π_θ。但在“采样这段对话/文本”的整个过程中,θ 不变,所以策略函数 π_θ(⋅∣s) 也是不变的。

  1. 旧策略(π_old)

    • 是“收集轨迹时”的那一套模型参数下的策略网络。

    • 换句话说,你让模型在环境(或是对话上下文)里按照 π_old 去采样,得到了 N 条“(状态₁,动作₁)→(状态₂,动作₂)→ … →(状态_T, 动作_T)”的完整轨迹。

    • 在收集完这些轨迹后,你把这些轨迹连同 π_old 在每一步的 log π_old(a_t|s_t)(或者直接存储下来的 probs)一起都记录下来。这个“旧策略”相当于一个“快照”,是收集数据时的分布。

  2. 新策略(π_new)

    • 是“在更新参数过程中所使用的那套参数”——也就是我们正在训练的、会随着梯度下降而不断变化的策略网络。

    • 一旦开始做梯度更新,就会用当前那一刻的网络参数去计算“新策略输出的 log π_new(a_t|s_t)”。随着每一次梯度步,新策略的参数都会微调,这时 π_new(a_t|s_t) 就可能和旧策略 π_old(a_t|s_t) 不再相同。

核心思路

  1. 收集轨迹阶段:

    • 在策略还是 π_old 的时候,让它去环境里跑几千个或几万个 steps,把完整的“状态→动作→奖励→下一个状态”都存下来,连同当时的 log π_old(a_t|s_t)。

    • 由于在这一步,你还未做过任何梯度更新,所以“新策略”和“旧策略”是同一个网络。此时如果你立刻比较 π_new 和 π_old,它们是完全一样的——比值。但你先把 π_old 的值记下来,后面调整参数时就有对比用。

  2. 优化阶段:

    • 接下来,你拿到这批已经收集好的轨迹,开始做多轮(多个 epoch)小批量(mini-batch)的梯度更新。

    • 在做第 1 次梯度更新时,虽然此刻的“新策略”参数 θ 与“旧策略”参数(收集时的快照)是一模一样的,但你仍然把它们区分开来

      • π_old 作为“分母”是个常数(保留收集轨迹时计算出来的概率值),不会随梯度变化。

      • π_new 作为分子,用来重新在网络里跑一遍“给定同一个 s_t,计算当前参数下采样 a_t 的概率”——也就是 log π_new(a_t|s_t)

      • 从第 1 步到第 k 步,你都会做相同流程:把“旧 log π_old” 和“新 log π_new” 一起塞进目标函数里,再做梯度更新。梯度实际上来自于“新策略”下的 log π_new(a_t|s_t) 与“旧策略” log π_old(a_t|s_t) 的比值,因为你要优化的是 让比值往有利于大优势值 A_t 的方向调整

三、推理阶段:使用训练好的策略

    • 推理(Inference)阶段的模型权重已经固定,原本训练中“等生成完整序列才给分”的那套机制,在推理时已经不再用到——你只需要让模型按学到的“策略”来采样(sampling)或贪心(greedy)或 Beam Search,就可以一步步生成文本。
    • “延迟奖励”不影响推理:模型在训练时学到的是“哪种写法往往能拿高分”,它把这些偏好都编码进了参数里。推理阶段只负责“按概率分布一步步抽词”,不再需要知道“这个序列最终打了几分”。

小结

所以,重点就在于

  • 采样:用旧策略(现策略)拿到“随机生成的具体文本”以便算 reward。在采样阶段,模型参数不变,策略自然不变。

  • reward:只能在“采样出具体文本 τ”后才能得出。

  • 更新:等到我们从多条 τ 上都获取了 reward,再去把这些“sequence-level feedback”切片到每一步,算出梯度更新策略/参数。