圖靈獎得主楊立昆(Yann LeCun)再度對當前席捲全球的大語言模型(LLM)發出嚴厲批判,他認為這些模型雖然在文字處理上表現驚人,但其「理解」能力仍是表層、統計性的,缺乏基礎的常識、因果推理及物理世界認知,甚至無法與 4 歲幼童,或如貓狗等動物的智慧相比。
LeCun 與 DeepMind 資深研究科學家 Adam Brown 在紐約展開一場對談,兩人針對 LLM 的能力邊界、意識議題及未來 AI 架構進行了激烈的思想交鋒。
在探討 LLM 是否真正「理解」對話內容時,Adam Brown 持肯定態度,指出模型已能在複雜物理與數學競賽中擊敗人類。然而,LeCun 則更為謹慎,他堅信 LLM 的理解僅是透過對數十兆字文本的統計匹配。
LeCun 拋出了一個極具說服力的類比:「訓練最大 LLM 所需的 30 兆字文本資訊量,相當於一個四歲孩子透過感官與物理世界互動所獲得的資訊量。但這個孩子能學會倒水、收拾餐桌,而 LLM 卻連洗碗都做不到。」
他進一步指出,人類智慧植根於對底層現實世界的認知,而 LLM 缺乏這種「世界模型」。對於現實世界這種高維、連續、充滿不確定性的感官數據,僅僅依賴「預測下一個 Token」的訓練方法是行不通的。
曾公開表示,現有機器學習範式「很糟糕」,原因在於它缺乏人類所具備的直覺物理知識,如重力與慣性。
樣本效率低落:50 萬年的文本 vs 1.6 萬小時的學習
LeCun 強調了 LLM 驚人的「樣本效率低落」問題。他計算,訓練一個 LLM 所需的數據,相當於透過光纜閱讀 50 萬年的文字。相比之下,人類孩童在醒著的 16,000 小時裡,透過視覺神經接收的資料量雖與 LLM 訓練資料量相當,但卻能從中學會複雜的物理操作。
他強調:「現實世界的訊息比文本豐富、複雜得多。」雖然 Brown 引用 AlphaGo 的案例,認為樣本效率慢不代表無法超越人類,但 LeCun 堅持認為,如果將所有資源押注於現有的「預測下一個字」範式,人類將錯失真正通往「理解世界」AI 的架構。
LeCun 正在大力推動名為 JEPA(聯合嵌入預測架構)的新方向。他認為,真正的智能系統不應在「像素層面」進行預測,而應在抽象的特徵空間中學習物理規律與因果關係。
他認為這才是人類和動物大腦的工作方式:「忽略無關細節,只預測重要的抽象概念。」他將此視為打破現有 LLM 天花板的關鍵。
當前的 AI「絕對沒有」意識
在敏感的「意識」議題上,兩位科學家也存在分歧。 Brown 認為,如果科技持續演進,AI 未來有可能具備某種形式的意識。
LeCun 則明確表示,當前的 AI「絕對沒有」意識,但他認為意識若被定義為「自我觀測與目標驅動的調節能力」,那確實可以被構建,這是一個工程問題,但當下的系統遠未達到。
針對 AI 安全問題,LeCun 則展現了樂觀的「文藝復興」視角,並支持開源。他認為,當前的 LLM 是被動、可控的,知識和智能本身是好的。他更擔心的是 AI 技術被少數公司壟斷,這將對全球文化、語言和民主造成災難。
儘管 LeCun 認同當前 LLM 的能力驚人,但他堅信其根植於文本預測的範式存在嚴重缺陷。他呼籲 AI 研究社群應將資源投入到能賦予機器常識、世界模型和因果推理能力的新架構上,才能真正實現通用人工智慧。
新聞來源 (不包括新聞圖片): 鉅亨網