


過去幾個月來,人工智慧社群經歷了一場由蘋果公司發表的兩篇有影響力的研究論文所引發的激烈辯論。第一篇、 GSM-Symbolic(2024年10月),以及第二篇、 思考的錯覺(2025年6月) 質疑了所謂的大型語言模型的推理能力,在業界引起了不同的反應。
正如我們在之前的文章中所分析的 「進步的假象:模擬一般人工智慧卻無法實現 」一文中已經分析過。人工推理的問題觸及我們認為機器智慧的核心。
Apple 的研究人員對大型推理模型 (Large Reasoning Models, LRM)進行了系統分析 - 這些模型會在提供答案前產生詳細的推理軌跡。結果令人驚訝,而且對許多人而言,也令人震惊。
這項研究讓最先進的模型接受經典演算法謎題的考驗,例如:

結果顯示,即使是問題表述上的微小變化,也會導致表現上的顯著差異,這說明推理的脆弱性令人擔憂。正如 AppleInsider 報導,「當僅改變 GSM-Symbolic 基準問題中的數值時,所有模型的效能都會下降」。
來自人工智慧社群的回應很快就出現了。Open Philanthropy 的 Alex Lawsen 與 Anthropic 的 Claude Opus 合作,發表了一篇詳盡的反駁文章,題目為 思考的幻覺」。對 Apple 研究的方法和結論提出質疑。
當 Lawsen 以其他方法重複測試時 (要求模型產生遞歸函數,而非列出所有步驟),結果大不相同。Claude、Gemini 和 GPT 等模型正確解決了有 15 條記錄的河內塔問題,遠遠超過 Apple 報告零成功的複雜度。
Gary Marcus長期批評法律學家的推理能力,他認為 Apple 的研究結果證實了他 20 年來的論點。根據 Marcus 的說法,法學院院士仍在「分佈轉換」(即超越訓練資料的概括能力)方面掙扎,同時仍是「解決已經解決的問題的好手」。
此討論也擴散到專業社群,例如 Reddit 上的 LocalLlama開發人員和研究人員討論開放原始碼模式和本地實作的實際影響。
這場辯論並非純學術性的。它對以下方面有直接影響:
正如幾份 技術見解越來越需要結合以下技術的混合方法:
舉個簡單的例子:一個協助記帳的 AI 助理。當您問「這個月我在旅遊上花了多少錢?」時,語言模型會理解,並擷取相關參數(類別:旅遊,期間:本月)。但是查詢資料庫、計算總和並檢查財務限制的 SQL 查詢呢?那是由確定性程式碼完成的,而不是神經模型。
觀察家不難發現,蘋果的論文是在 WWDC 前不久發表,令人質疑其策略動機。正如9to5Mac 的分析,"蘋果論文發表的時間 - 就在 WWDC 之前 - 引起了一些關注。這是研究的里程碑,還是在更廣泛的人工智能領域重新定位蘋果的戰略舉動?
蘋果的論文所引發的爭論提醒我們,我們對人工智慧的了解仍處於早期階段。正如我們在 上一篇文章中指出,模擬推理和真實推理之間的區別仍然是我們這個時代最複雜的挑戰之一。
真正的教訓不在於 LLM 是否能夠達到人類所謂的「推理」能力,而是我們該如何建立既能發揮其優點,又能彌補其缺點的系統。在這個人工智能已經在改變整個行業的世界裡,問題不再是這些工具是否「聰明」,而是如何有效且負責任地使用它們。
企業級 AI 的未來可能不在於單一的革命性方法,而是在於幾種互補技術的智慧型協調。在這種情況下,批判且誠實地評估我們工具能力的能力本身就成為了一種競爭優勢。
若要深入瞭解貴組織的 AI 策略和強大解決方案的實施,我們的專家團隊可提供客製化諮詢服務。