為什麼數學很困難（即使您是人工智能）

Newsletter

為什麼數學很困難（即使您是人工智能）

語言模型不知道如何像我們記住 pi 一樣乘法記住結果，但這並不表示它們是數學家。問題出在結構上：它們是透過統計相似性來學習，而不是透過演算法的理解來學習。即使是新的「推理模型」，例如 o1，也會在微不足道的任務上失敗：它在幾秒鐘的處理後就能正確地數出「草莓」中的「r」，但當它要寫一段文字，每句的第二個字母組成一個單字時，它就失敗了。200 美元/月的高級版則需要四分鐘才能解決兒童立即完成的問題。2025 年的 DeepSeek 和 Mistral 仍然會計算錯誤的字母。新興的解決方案？混合式方法--最聰明的模型已經知道何時該呼叫真正的計算機，而不是自己嘗試計算。範式轉移：AI 不一定要知道如何做所有事情，而是要協調正確的工具。最後的悖論：GPT-4 可以精闢地向您解釋極限理論，但卻會弄錯口袋計算機總是能正確解決的乘法運算。對於數學教育來說，它們是極佳的工具 - 以無限的耐心解釋、適應範例、分解複雜的推理。對於精確的計算？依靠計算機，而不是人工智慧。

首席執行官兼 Electe‍ 創辦人

使用 AI 總結本文

許多人依賴 LLM來執行數學運算。這種方法行不通。

問題其實很簡單：大型語言模型 (LLM) 並不真的懂得乘法。它們有時會得到正確的結果，就像我可能熟知 pi 的值一樣。但這並不代表我是數學家，也不代表 LLM 真的懂得數學。

實例

例如：49858 *59949 = 298896167242 這個結果永遠是一樣的，沒有中間值。不是對就是錯。

即使經過大量的數學訓練，最好的模型也只能正確解決部分的運算。另一方面，一個簡單的袖珍計算機卻能得到 100% 的正確結果，永遠如此。而且數字越大，LLM 的表現就越差。

有可能解決這個問題嗎？

基本問題是這些模型是透過相似性來學習，而不是透過理解來學習。它們在處理與訓練過的問題相似的問題時效果最佳，但卻無法真正理解問題的意思。

對於想要瞭解更多資訊的人，我建議您閱讀這篇文章"法學碩士如何運作".

另一方面，計算機使用編程的精確演算法來執行數學運算。

這就是我們絕對不能完全依賴 LLM 進行數學計算的原因：即使在最好的條件下，有大量的特定訓練資料，它們也無法保證最基本操作的可靠性。混合方法也許可行，但僅有 LLM 是不夠的。也許在解決所謂的「草莓問題」時，也會採用這種方法。

法學碩士在數學研究中的應用

在教育環境中，LLM 可以充當個人化的導師，能夠根據學生的理解程度調整解釋。例如，當學生面臨微分問題時，LLM 可以將推理分解成較簡單的步驟，並針對解決過程中的每個步驟提供詳細解釋。這種方法有助於建立對基本概念的紮實理解。

一個特別有趣的方面是 LLM 能夠產生相關和多樣化的例子。如果學生正在嘗試理解極限的概念，LLM 可以提出不同的數學情境，從簡單的情況開始，進而到較複雜的情況，從而讓學生逐步理解這個概念。

一個很有前途的應用是使用 LLM 將複雜的數學概念轉換成更容易理解的自然語言。這有助於向更廣泛的受眾傳達數學知識，並有助於克服學習這門學科的傳統障礙。

LLM 也可以協助準備教材，產生不同難度的練習，並針對學生提出的解決方案提供詳細的回饋。這可讓教師更好地為學生定制學習路徑。

真正的優勢

此外，更廣泛而言，還要考慮到即使是最沒有「能力」的學生，在幫助他們學習時也要有極大的「耐心」：在這種情況下，沒有情緒會有所幫助。儘管如此，即使是 ai 有時候也會「失去耐心」。請看這個「有趣的例子.

‍

更新 2025：推理模型與混合方法

2024-2025 年，隨著所謂「推理模型」的出現，例如 OpenAI o1 和deepseekR1，帶來了重大的發展。這些模型在數學基準上取得了令人印象深刻的成績：o1 正確解決了國際數學奧林匹克中 83% 的問題，而 GPT-4o 則只有 13%。但請注意：它們並沒有解決上述的基本問題。

o1 在經過幾秒鐘的「推理」之後，就能正確解決這個問題，但如果你要求它寫一段文字，每句的第二個字母組成 "CODE "這個單字，它就會失敗。DeepSeek R1 和其他最近的機型還是會弄錯基本的計數。2025 年 2 月，Mistral 一直回答 'strawberry「中只有兩個」r'。

正在出現的訣竅是混合方法：當它們必須將 49858 乘以 5994949 時，更先進的模型不再嘗試根據與訓練期間所見計算的相似性來「猜測」結果。取而代之的是，它們會呼叫計算機或執行 Python 程式碼，就像知道自己極限的智慧型人類所做的一樣。

這種「工具使用」代表了一種範式的轉變：人工智慧不一定要能獨力完成所有事情，但必須能夠協調適當的工具。推理模型結合了理解問題的語言能力、規劃解決方案的逐步推理能力，以及委託專業工具（計算機、Python 解譯器、資料庫）進行精確執行的能力。

教訓？2025 年的 LLMs 在數學上更有用，不是因為他們「學會」了乘法 - 他們還沒有真正做到 - 而是因為他們中的一些人已經開始明白，何時應該把乘法交給那些真正會做乘法的人。基本的問題仍然存在：他們是透過統計相似性來運算，而不是透過演算法的理解來運算。對於精確的計算，5 歐元的計算機仍然無限可靠。

‍

促進業務成長的資源

2025 年 11 月 9 日

AI 何時會成為您唯一的選擇（以及為什麼您會喜歡它）

"一家公司秘密禁用 AI 系統 72 小時。結果呢？決策完全癱瘓。最常見的反應是什麼？如釋重負"。到 2027 年，90% 的商業決策將交由 AI 處理 - 人類將扮演「生物介面」的角色，以維持控制的假象。那些抗拒的人會被視為在計算機發明之後用手做計算的人。問題不再是我們是否會屈服，而是如何優雅地屈服。

2025 年 11 月 9 日

管制未被創造的東西：歐洲會冒技術無關的風險嗎？

歐洲只吸引了全球十分之一的人工智慧投資，但卻聲稱要主宰全球規則。這就是「布魯塞爾效應」（Brussels Effect）──透過市場力量強加全球規範，卻不推動創新。人工智慧法》的生效時間表錯開至 2027 年，但跨國科技公司卻以創新的迴避策略來因應：援引商業機密來避免揭露訓練資料、製作技術上合規但難以理解的摘要、利用自我評估將系統的等級從「高風險」降至「最低風險」、選擇管制較寬鬆的成員國來購買論壇。域外版權的悖論：歐盟要求 OpenAI 即使在歐洲以外進行訓練，也必須遵守歐洲法律 - 這是國際法中從未見過的原則。雙重模式」出現：相同 AI 產品的歐洲有限版本與全球先進版本。真正的風險：歐洲成為與全球創新隔絕的「數位堡壘」，歐洲公民只能使用低劣的技術。法院在信用評分案中已駁回「商業機密」抗辯，但解釋上仍有極大的不確定性-「足夠詳細的摘要」到底是什麼意思？沒有人知道。最後一個未解答的問題：歐盟是在美國資本主義與中國國家控制之間，創造出符合道德的第三條道路，還是只是將官僚主義輸出到不具競爭力的領域？就目前而言：在 AI 法規方面處於世界領先地位，在其發展方面則處於邊緣地位。龐大的方案。

2025 年 11 月 9 日

離群族群：資料科學與成功故事的結合

資料科學顛覆了這種模式：離群值不再是「需要消除的錯誤」，而是需要瞭解的寶貴資訊。一個離群值會完全扭曲一個線性迴歸模型 - 將斜率從 2 變成 10 - 但消除它可能意味著失去資料集中最重要的訊號。機器學習引入了精密的工具：Isolation Forest 可透過建立隨機判斷樹來隔離離群值，Local Outlier Factor 可分析局部密度，Autoencoders 可重建正常資料並匯報其無法重現的資料。有全球離群值（熱帶溫度 -10°C）、情境離群值（在貧窮社區花費 1,000 歐元）、集體離群值（同步網路流量尖峰顯示攻擊）。與 Gladwell 相似：「10,000 小時定律」是有爭議的 - Paul McCartney 說：「許多樂團在漢堡做了 10,000 小時都沒有成功，理論並非無懈可擊」。亞洲數學的成功不在於基因，而在於文化：中國的數學系統更直觀，水稻種植需要不斷改進，而西方農業則需要地域擴張。實際應用：英國銀行透過即時異常偵測挽回 18% 的潛在損失；製造業可偵測人為檢查會遺漏的微小瑕疵；醫療保健以 85% 以上的異常偵測靈敏度驗證臨床試驗資料。最後一課：當資料科學從消除異常值轉變為了解異常值時，我們必須將非常規的職業生涯視為有價值的軌跡，而非需要糾正的異常。

2025 年 11 月 9 日

因為單靠迅速的工程設計並沒有什麼用處

人工智能的成功實現，將具有競爭力的組織與注定被邊緣化的組織區隔開來。但在 2025 年，勝利策略甚至與一年前相比都發生了巨大的變化。以下是真正利用人工智能能力的五種最新方法。