Yann LeCun 所鼓吹的「世界模型」(World Model)是一種旨在模仿人類和動物學習世界運作方式的新興 AI 概念 [P1, P62]。他認為,這條路徑不同於主流的 GPT/Diffusion 模型所依賴的大數據、大參數和自迴歸 Transformer 架構,是實現通用人工智慧(AGI)的關鍵 [P1, P62]。
以下將從實際能力、優缺點等方面,對最新發布的 LeCun 世界模型(如 I-JEPA 和 V-JEPA 2)與主流 GPT/Diffusion 模型進行比較:
世界模型(I-JEPA, V-JEPA 2)能做到而主流 GPT/Diffusion 難以實現的事項:
- 理解與預測物理世界及因果關係:
- 世界模型的核心能力在於對真實物理世界做出反應,能夠理解觀察到的事物(包括物體、動作和運動),並預測世界將如何演變,或智能體採取行動後世界會如何變化 [P1, P32]。這種觀察有助於建立對世界運作方式的因果關係理解 [P1, P4]。
- 例如,V-JEPA 2 是首個基於影片訓練的世界模型,它顯著提升了動作預測和物理世界建模能力 [P1, P31]。它能夠為籃球的彈跳等物理現象提供更精確的模擬結果,因為它具備了基本的物理認知 [P1, P62]。
- 比較與主流模型: 主流的生成模型,如基於 Diffusion 和 Transformer 的 Sora,目前仍難以準確學習物理規律 [P1, P71]。即使在充足的訓練數據下(可能包含 CG 生成數據),Sora 生成的影片也可能顯示出不符合物理規律之處,這表明簡單地堆砌數據並非通向更高級智能的道路 [P1, P71]。LeCun 更指出,目前的 AI 形式(生成式 AI 和大型語言模型)在缺乏對物理世界的理解、持久記憶、推理能力和複雜規劃能力方面存在限制,阻礙了機器實現真正的智能行為 [P39, P40]。
- 透過抽象表示進行預測與規劃,而非精確像素或文字重構:
- 世界模型(如 I-JEPA 和 V-JEPA)的關鍵優勢在於不需要精確預測世界的每一個細節,只需預測足夠抽象的表示以實現規劃目的 [P1, P4, P5, P19, P21]。這種方法比傳統的像素重構方法更注重對圖像的語義表示進行預測,而非完美重構圖像本身 [P5, P21, P73]。
- I-JEPA 的核心思想是預測抽象表示中缺失的資訊,這更接近人類的普遍理解 [P1, P21]。透過使用抽象預測目標,它可以潛在地消除不必要的像素級細節,從而引導模型學習更具語義性的特徵 [P21]。
- 比較與主流模型: 生成式架構(如 GPT 和 Diffusion)透過移除或扭曲輸入部分(如擦除照片或隱藏文字),然後試圖預測被破壞或缺失的像素或詞語 [P1, P19, P72]。然而,世界本質上是不可預測的,生成方法可能傾向於填補每一個缺失的資訊,這可能導致模型過度專注於不相關的細節,並犯下人類不會犯的錯誤(例如,生成人手時多出手指,即所謂的「幻覺」問題) [P1, P19, P62]。
- 更高的計算效率和更強的語義表示學習能力:
- I-JEPA 的預訓練計算效率很高 [P1, P25]。它不需要應用更耗費計算的資料增強來產生多個視圖,並能夠在不使用手工設計的視圖增強的情況下,學習到強大的現成語義表示 [P1, P25]。在相同的資料量下,I-JEPA 在 ImageNet 上實現最先進的低樣本分類性能時,所需的 GPU 時間比其他方法少 2 到 10 倍 [P1, P16, P25]。
- V-JEPA 是一種非生成模型,透過預測抽象表示空間中影片的缺失或遮罩部分來學習 [P72]。它可以靈活地丟棄不可預測的資訊,從而將訓練和樣本效率提高 1.5 倍到 6 倍 [P1, P72]。
- 比較與主流模型: 雖然未直接點出 GPT/Diffusion 的計算效率劣勢,但 World Model 聲稱其計算效率更高,暗示了主流模型在某些方面可能不如其高效。
- 零樣本規劃與機器人控制:
- V-JEPA 2 能夠用於在新環境中進行零樣本規劃(Zero-shot planning)和機器人控制 [P1, P32]。它能夠透過想像一系列候選動作的後果來規劃行動,並根據它們接近目標的速度對動作進行評分 [P1, P34]。
- 這使得 AI 智能體能夠在不需要大量機器人訓練數據的情況下,幫助完成家務和體力任務 [P1, P31]。
- 世界模型的核心作用是反事實推理(Counterfactual reasoning),即便是對於數據中未見過的決策,在世界模型中都能推斷出決策的結果 [P1, P68]。這是一種人類天然具備,而當前 AI 做得很差的能力 [P1, P68]。一旦產生突破,AI 決策能力會大幅提升,實現全自動駕駛等場景應用 [P69]。
- 比較與主流模型: LeCun 認為當前 LLM 模式缺乏推理能力和複雜規劃能力,阻礙了真正的智能行為 [P40]。他預測,未來幾年可能成為「機器人技術的十年」,屆時 AI 和機器人技術的進步將結合,解鎖新一代智能應用 [P39, P41]。
- 促進開放研究與文化多樣性:
- LeCun 和 Meta 強調開源模型的重要性,認為對於基礎技術和基礎設施類技術,開源模型總能取得勝利 [P1, P5]。開源模型更可靠、安全、可客製化,並能吸引更多參與和貢獻,形成一個生態系統 [P1, P5]。
- 開源有助於匯集更多人的智慧,避免整個資訊流被一家公司主導並受到某種偏見,這對於世界各地的文化多樣性來說非常重要 [P1, P6]。
- 比較與主流模型: 雖然 OpenAI 等公司也發布部分開源模型,但 LeCun 強調的開源哲學似乎是更全面和深層次的,認為這能避免壟斷和濫用 [P6, P8]。
兩類模型的缺點與挑戰:
LeCun 世界模型的缺點與挑戰:
- 複雜性與持續研究: 目前還沒有一套明確的訓練過程可以替代 JEPA 架構,需要進一步研究和發展才能找到更好的方法 [P5]。仍需要發現新的概念、新的架構來實現人類般的智能水平 [P5]。
- 物理定律模擬的不足: 儘管在進步,但世界模型在模擬現實世界中的複雜物理現象(如流體動力學、空氣動力學等)時,其準確性和一致性仍然不足 [P51]。人類在物理理解基線測試中的表現仍明顯優於包括 V-JEPA 2 在內的頂級模型 [P34]。
- 泛化能力(外推能力): 對於真實世界中罕見或異常事件的預測(如自動駕駛中的交通事故),模型能否超越訓練數據的記憶,發展出對原理的深刻理解以進行外推,是一個挑戰 [P52]。
- 計算效率(針對特定應用場景): 對於某些生成式應用,如生成高質量影片,保持時間一致性會導致生成時間大大增加,例如 Sora 生成一分鐘影片可能需要一小時,這限制了大規模應用 [P52]。
- 性能評估的挑戰: 當前世界模型研究熱點集中在生成式模型上,評估指標主要為生成質量,但這些指標不足以全面反映世界模型的預測合理性。結合人類反饋能使評估更全面,但效率和一致性有待提升 [P52]。
- 當前模型的局限性: V-JEPA 2 目前只能在單一時間尺度上學習和進行預測,而許多任務需要跨多個時間尺度的規劃。未來重要的方向是發展分層次和多模態的 JEPA 模型,使其能夠使用視覺、音訊和觸覺等多種感官進行預測 [P36, P74]。目前 V-JEPA 適合處理相對較短的影片(可能長達 10 秒),但要在更長的時間範圍內進行預測仍是挑戰 [P74]。
主流 GPT/Diffusion 模型的缺點與挑戰:
- 缺乏物理世界的深層理解: 如前所述,它們在準確學習和模擬物理規律方面存在明顯不足 [P1, P71]。
- 推理和規劃能力有限: LeCun 認為當前的大型語言模型(LLMs)擅長處理語言,但不擅長思考 [P40]。它們缺乏持久記憶、推理能力和複雜規劃能力,這阻礙了機器實現真正的智能行為 [P40]。
- 「幻覺」問題: 由於傾向於填補所有缺失資訊,即使是不可預測的細節,這類模型容易產生「幻覺」,生成看似合理但不正確的內容 [P1, P19, P62, P93]。
- 對數據的過度依賴: 這類模型透過大量數據進行模式識別和重建學習,但對數據之外的抽象概念和因果關係的理解仍是挑戰 [P62, P68]。
- 未來發展路線的質疑: LeCun 預測目前的 LLM 模式壽命可能只有三到五年,認為未來會出現全新的 AI 架構範式,其能力將遠遠超越現有 AI 系統 [P39]。他認為自迴歸的 Transformer 是無法通往 AGI 的 [P63]。