推理的錯覺：震撼 AI 世界的爭論

Newsletter

推理的錯覺：震撼 AI 世界的爭論

Apple 發表了兩篇毀滅性的論文-「GSM-Symbolic」（2024 年 10 月）和「The Illusion of Thinking」（2025 年 6 月）-這兩篇論文展示了 LLM 如何在經典問題（河內塔、過河）的小變化上失敗：「當僅改變數值時，性能會下降」。在複雜的河內塔問題上零成功。但 Alex Lawsen (Open Philanthropy) 以「思考的錯覺」(The Illusion of Thinking) 作為反駁，展示失敗的方法論：失敗的原因是符號輸出限制而非推理崩潰、自動腳本錯誤分類部分正確輸出、有些謎題在數學上是無法解決的。Claude/Gemini/GPT 以遞迴函數重複測試，而非列出步驟，解決了河內塔 15 次的記錄。Gary Marcus 接受蘋果有關「分佈轉移」的論點，但 WWDC 前的時間論文提出了策略性的問題。商業影響：關鍵任務對 AI 的信任程度？解決方案：神經符號方法神經網路用於模式識別+語言，符號系統用於形式邏輯。舉例說明：AI 會計了解「多少差旅費？」，但 SQL/計算/稅務稽核 = 確定性程式碼。

Fabio Lauria

首席執行官兼 Electe‍ 創辦人

使用 AI 總結本文

當 AI 推理遇到現實：機器人正確應用邏輯規則，但卻把籃球識別為橘子。這是一個完美的比喻，說明 LLM 可以模擬邏輯過程，卻不具備真正的理解能力。

‍

過去幾個月來，人工智慧社群因為蘋果公司發表的兩篇影響深遠的研究論文而掀起熱烈討論。第一篇，illusion-of-thinking-the-debate-that-is-shaking-the-world-of-ai&_bhlid=a540c17e5de7c2723906dabd9b8f31cdf0c5bf18" target="_blank" id="">"GSM-Symbolic"（2024 年 10 月），第二篇、 「思考的幻象」(2025 年 6 月)，質疑所謂的大型語言模型的推理能力，在業界引起不同的反應。

‍

正如我們先前在深入探討中分析的 「進步的幻覺：模擬通用人工智慧卻無法實現」，人工推理的問題觸及了我們對機器智能的根本認知。

‍

蘋果研究報告指出

Apple 的研究人員對大型推理模型 (Large Reasoning Models, LRM)進行了系統分析 - 這些模型會在提供答案前產生詳細的推理軌跡。結果令人驚訝，而且對許多人而言，也令人震惊。

‍

進行的測試

這項研究讓最先進的模型接受經典演算法謎題的考驗，例如：

河內塔：1957 年首次破解的數學謎題
渡河問題：具有特定限制條件的邏輯謎題
GSM-Symbolic Benchmark：初級數學問題的變體

‍

*透過經典謎題測試推理能力：* 問題難題是蘋果研究中用來評估大型語言模型推理能力的邏輯謎題之一。難點在於找出正確的過河順序，避免狼獨處時吃掉山羊，或山羊獨處時吃掉菜。這是區分演算法理解與模式記憶的簡單而有效的測試。

‍

具爭議性的結果

結果顯示，即使是問題表述上的微小變化，也會導致表現上的顯著差異，這說明推理的脆弱性令人擔憂。正如 AppleInsider 報導，「當僅改變 GSM-Symbolic 基準問題中的數值時，所有模型的效能都會下降」。

‍

反攻：思考的假象

‍

來自人工智慧社群的回應很快就出現了。Open Philanthropy 的 Alex Lawsen 與 Anthropic 的 Claude Opus 合作，發表了一篇詳盡的反駁文章，題目為 思考的幻覺」。對 Apple 研究的方法和結論提出質疑。

主要的反對意見

忽略輸出限制：許多歸因於「推理崩潰」的故障實際上是由於模型輸出符號限制造成的
不正確的評估：自動腳本也將部分但演算法正確的輸出歸類為完全失敗
不可能的問題：有些謎題在數學上是無法解決的，但模型會因為無法解決這些謎題而受到懲罰

確認測試

當 Lawsen 以其他方法重複測試時 (要求模型產生遞歸函數，而非列出所有步驟)，結果大不相同。Claude、gemini和 GPT 等模型正確解決了有 15 條記錄的河內塔問題，遠遠超過 Apple 報告零成功的複雜度。

‍

辯論中的權威聲音

‍

Gary Marcus：歷史評論家

Gary Marcus長期批評法律學家的推理能力，他認為 Apple 的研究結果證實了他 20 年來的論點。根據 Marcus 的說法，法學院院士在「已經解決的問題的良好解決者」的同時，仍然在「分佈轉換」（即超越訓練資料的概括能力）方面奮力掙扎。

‍

LocalLlama 社群

此討論也擴散到專業社群，例如 Reddit 上的 LocalLlama開發人員和研究人員討論開放原始碼模式和本地實作的實際影響。

‍

超越爭議：對公司的意義

策略影響

這場辯論並非純學術性的。它對以下方面有直接影響：

生產中的 AI 部署：我們可以在多大程度上信任模型來執行關鍵任務？
研發投資：將資源集中於何處以取得下一個突破？
與利害關係人溝通：如何管理對 AI 能力的現實期望？

神經符號方式

正如幾份 技術見解越來越需要結合以下技術的混合方法：

用於模式識別和語言理解的神經網路
演算法推理和形式邏輯的符號系統

舉個簡單的例子：一個協助記帳的 AI 助理。當您問「這個月我在旅遊上花了多少錢？」時，語言模型會理解，並擷取相關參數（類別：旅遊，期間：本月）。但是查詢資料庫、計算總和並檢查財務限制的 SQL 查詢呢？那是由確定性程式碼完成的，而不是神經模型。

‍

時機與策略背景

觀察家不難發現，蘋果的論文是在 WWDC 前不久發表，令人質疑其策略動機。正如9to5Mac 的分析，"蘋果論文發表的時間 - 就在 WWDC 之前 - 引起了一些關注。這是研究的里程碑，還是在更廣泛的人工智能領域重新定位蘋果的戰略舉動？

‍

未來的教訓

研究人員

實驗設計：區分架構限制與實作限制的重要性
嚴格評估：需要精密的基準，將認知能力與實際限制區分開來
方法透明：完整記錄實驗設定與限制的義務

針對公司

現實的期望：認識目前的限制而不放棄未來的潛力
混合方法：投資於結合不同技術優勢的解決方案
持續評估：實施反映實際使用情境的測試系統

‍

結論：駕馭不確定性

‍

蘋果的論文所引發的爭論提醒我們，我們對人工智慧的了解仍處於早期階段。正如我們在 上一篇文章中指出，模擬推理和真實推理之間的區別仍然是我們這個時代最複雜的挑戰之一。

‍

真正的教訓不在於 LLM 是否能夠達到人類所謂的「推理」能力，而是我們該如何建立既能發揮其優點，又能彌補其缺點的系統。在這個人工智能已經在改變整個行業的世界裡，問題不再是這些工具是否「聰明」，而是如何有效且負責任地使用它們。

‍

企業級 AI 的未來可能不在於單一的革命性方法，而是在於幾種互補技術的智慧型協調。在這種情況下，批判且誠實地評估我們工具能力的能力本身就成為了一種競爭優勢。

‍

最新進展（2026年1月）

OpenAI 釋出 o3 與 o4-mini：2025 年 4 月 16 日，OpenAI 公開發布 o3 與 o4-mini，這兩款為 o 系列中最先進的推理模型。這些模型現可主動運用工具，結合網路搜尋、檔案分析、視覺推理與圖像生成等功能。 o3 在 Codeforces、SWE-bench 和 MMMU 等基準測試中創下新紀錄，而 o4-mini 則針對高量推理任務優化了性能與成本。這些模型展現了「圖像思考」能力，能將內容視覺化轉化以進行更深入的分析。

DeepSeek-R1撼動人工智慧產業：2025年1月，DeepSeek發布開源推理模型R1，其性能媲美OpenAI o1，訓練成本僅需600萬美元（相較於西方模型動輒數億美元）。 DeepSeek-R1證明推理能力可透過純強化學習激發，無需人工標註示範。該模型已成為數十個國家App Store與Google Play的免費榜冠軍應用程式。 2026年1月，DeepSeek發表了長達60頁的擴展論文，揭示了訓練的秘訣，並坦承蒙地卡羅樹搜索（MCTS）等技術無法應用於通用推理。

Anthropic 更新克勞德的「憲法」：2026年1月22日，Anthropic 為克勞德發布了一份長達23,000字的新憲法，從基於規則的方法轉變為基於對倫理原則的理解。該文件成為首份正式承認人工智慧可能具備意識或道德地位的大型人工智慧企業框架，聲明Anthropic關注克勞德的「心理健康、自我意識與福祉」。

辯論愈演愈烈：2025年7月的一項研究複製並改進了蘋果公司的基準測試，證實當複雜度適度增加時（約如漢諾塔的8個圓盤），LRM仍會顯現認知限制。研究人員證明這不僅取決於輸出限制，更源於真實的認知局限，凸顯出相關爭論遠未落幕。

‍

若要深入瞭解貴組織的 AI 策略和強大解決方案的實施，我們的專家團隊可提供客製化諮詢服務。

‍