Newsletter

推理的錯覺:震撼 AI 世界的爭論

Apple 發表了兩篇毀滅性的論文-「GSM-Symbolic」(2024 年 10 月)和「The Illusion of Thinking」(2025 年 6 月)-這兩篇論文展示了 LLM 如何在經典問題(河內塔、過河)的小變化上失敗:「當僅改變數值時,性能會下降」。在複雜的河內塔問題上零成功。但 Alex Lawsen (Open Philanthropy) 以「思考的錯覺」(The Illusion of Thinking) 作為反駁,展示失敗的方法論:失敗的原因是符號輸出限制而非推理崩潰、自動腳本錯誤分類部分正確輸出、有些謎題在數學上是無法解決的。Claude/Gemini/GPT 以遞迴函數重複測試,而非列出步驟,解決了河內塔 15 次的記錄。Gary Marcus 接受蘋果有關「分佈轉移」的論點,但 WWDC 前的時間論文提出了策略性的問題。商業影響:關鍵任務對 AI 的信任程度?解決方案:神經符號方法 神經網路用於模式識別+語言,符號系統用於形式邏輯。舉例說明:AI 會計了解「多少差旅費?」,但 SQL/計算/稅務稽核 = 確定性程式碼。
Fabio Lauria
首席執行官兼 Electe‍ 創辦人
當 AI 推理遇到現實:機器人正確應用邏輯規則,但卻把籃球識別為橘子。這是一個完美的比喻,說明 LLM 可以模擬邏輯過程,卻不具備真正的理解能力。

過去幾個月來,人工智慧社群經歷了一場由蘋果公司發表的兩篇有影響力的研究論文所引發的激烈辯論。第一篇、 GSM-Symbolic(2024年10月),以及第二篇、 思考的錯覺(2025年6月) 質疑了所謂的大型語言模型的推理能力,在業界引起了不同的反應。

正如我們在之前的文章中所分析的 「進步的假象:模擬一般人工智慧卻無法實現 」一文中已經分析過。人工推理的問題觸及我們認為機器智慧的核心。

蘋果研究報告指出

Apple 的研究人員對大型推理模型 (Large Reasoning Models, LRM)進行了系統分析 - 這些模型會在提供答案前產生詳細的推理軌跡。結果令人驚訝,而且對許多人而言,也令人震惊。

進行的測試

這項研究讓最先進的模型接受經典演算法謎題的考驗,例如:

  • 河內塔:1957 年首次破解的數學謎題
  • 渡河問題:具有特定限制條件的邏輯謎題
  • GSM-Symbolic Benchmark:初級數學問題的變體

以經典謎題測試推理能力:農夫、狼、山羊和捲心菜的問題是 Apple 研究中用來評估 LLM 推理能力的邏輯謎題之一。難度在於找到正確的交叉順序,同時避免狼吃掉山羊或山羊在獨處時吃掉捲心菜。這是一個簡單但有效的測試,可以區分演算法理解和模式記憶。

具爭議性的結果

結果顯示,即使是問題表述上的微小變化,也會導致表現上的顯著差異,這說明推理的脆弱性令人擔憂。正如 AppleInsider 報導,「當僅改變 GSM-Symbolic 基準問題中的數值時,所有模型的效能都會下降」。

反攻:思考的假象

來自人工智慧社群的回應很快就出現了。Open Philanthropy 的 Alex Lawsen 與 Anthropic 的 Claude Opus 合作,發表了一篇詳盡的反駁文章,題目為 思考的幻覺」。對 Apple 研究的方法和結論提出質疑。

主要的反對意見

  1. 忽略輸出限制:許多歸因於「推理崩潰」的故障實際上是由於模型輸出符號限制造成的
  2. 不正確的評估:自動腳本也將部分但演算法正確的輸出歸類為完全失敗
  3. 不可能的問題:有些謎題在數學上是無法解決的,但模型會因為無法解決這些謎題而受到懲罰

確認測試

當 Lawsen 以其他方法重複測試時 (要求模型產生遞歸函數,而非列出所有步驟),結果大不相同。Claude、Gemini 和 GPT 等模型正確解決了有 15 條記錄的河內塔問題,遠遠超過 Apple 報告零成功的複雜度。

辯論中的權威聲音

Gary Marcus:歷史評論家

Gary Marcus長期批評法律學家的推理能力,他認為 Apple 的研究結果證實了他 20 年來的論點。根據 Marcus 的說法,法學院院士仍在「分佈轉換」(即超越訓練資料的概括能力)方面掙扎,同時仍是「解決已經解決的問題的好手」。

LocalLlama 社群

此討論也擴散到專業社群,例如 Reddit 上的 LocalLlama開發人員和研究人員討論開放原始碼模式和本地實作的實際影響。

超越爭議:對公司的意義

策略影響

這場辯論並非純學術性的。它對以下方面有直接影響:

  • 生產中的 AI 部署:我們可以在多大程度上信任模型來執行關鍵任務?
  • 研發投資:將資源集中於何處以取得下一個突破?
  • 與利害關係人溝通:如何管理對 AI 能力的現實期望?

神經符號方式

正如幾份 技術見解越來越需要結合以下技術的混合方法:

  • 用於模式識別和語言理解的神經網路
  • 演算法推理和形式邏輯的符號系統

舉個簡單的例子:一個協助記帳的 AI 助理。當您問「這個月我在旅遊上花了多少錢?」時,語言模型會理解,並擷取相關參數(類別:旅遊,期間:本月)。但是查詢資料庫、計算總和並檢查財務限制的 SQL 查詢呢?那是由確定性程式碼完成的,而不是神經模型。

時機與策略背景

觀察家不難發現,蘋果的論文是在 WWDC 前不久發表,令人質疑其策略動機。正如9to5Mac 的分析,"蘋果論文發表的時間 - 就在 WWDC 之前 - 引起了一些關注。這是研究的里程碑,還是在更廣泛的人工智能領域重新定位蘋果的戰略舉動?

未來的教訓

研究人員

  • 實驗設計:區分架構限制與實作限制的重要性
  • 嚴格評估:需要精密的基準,將認知能力與實際限制區分開來
  • 方法透明:完整記錄實驗設定與限制的義務

針對公司

  • 現實的期望:認識目前的限制而不放棄未來的潛力
  • 混合方法:投資於結合不同技術優勢的解決方案
  • 持續評估:實施反映實際使用情境的測試系統

結論:駕馭不確定性

蘋果的論文所引發的爭論提醒我們,我們對人工智慧的了解仍處於早期階段。正如我們在 上一篇文章中指出,模擬推理和真實推理之間的區別仍然是我們這個時代最複雜的挑戰之一。

真正的教訓不在於 LLM 是否能夠達到人類所謂的「推理」能力,而是我們該如何建立既能發揮其優點,又能彌補其缺點的系統。在這個人工智能已經在改變整個行業的世界裡,問題不再是這些工具是否「聰明」,而是如何有效且負責任地使用它們。

企業級 AI 的未來可能不在於單一的革命性方法,而是在於幾種互補技術的智慧型協調。在這種情況下,批判且誠實地評估我們工具能力的能力本身就成為了一種競爭優勢。

若要深入瞭解貴組織的 AI 策略和強大解決方案的實施,我們的專家團隊可提供客製化諮詢服務。

來源與參考資料:

促進業務成長的資源

2025 年 11 月 9 日

管制未被創造的東西:歐洲會冒技術無關的風險嗎?

** 標題:歐洲人工智慧法案 - 誰來監管什麼不發展的悖論** **摘要:** 歐洲只吸引了全球人工智慧投資的十分之一,但卻聲稱要主宰全球規則。這就是「布魯塞爾效應」(Brussels Effect)--透過市場力量在全球範圍內實施法規,卻不推動創新。人工智慧法》的生效時間表交錯至 2027 年,但跨國科技公司卻以創新的迴避策略來因應:引用商業機密來避免揭露訓練資料、製作技術上合規但難以理解的摘要、利用自我評估將系統的等級從「高風險」降到「最低風險」、選擇管制較寬鬆的成員國來購買論壇。域外版權的悖論:歐盟要求 OpenAI 即使在歐洲以外進行訓練,也必須遵守歐洲法律 - 這是國際法中從未見過的原則。雙重模式」出現:相同 AI 產品的歐洲有限版本與全球先進版本。真正的風險:歐洲成為與全球創新隔絕的「數位堡壘」,歐洲公民只能使用低劣的技術。法院在信用評分案中已駁回「商業機密」抗辯,但解釋上仍有極大的不確定性-「足夠詳細的摘要」到底是什麼意思?沒有人知道。最後一個未解答的問題:歐盟是在美國資本主義與中國國家控制之間,創造出符合道德的第三條道路,還是只是將官僚主義輸出到不具競爭力的領域?就目前而言:在 AI 法規方面處於世界領先地位,在其發展方面則處於邊緣地位。龐大的方案。