為什麼數學很困難（即使您是人工智能）

Newsletter

為什麼數學很困難（即使您是人工智能）

語言模型不知道如何像我們記住 pi 一樣乘法記住結果，但這並不表示它們是數學家。問題出在結構上：它們是透過統計相似性來學習，而不是透過演算法的理解來學習。即使是新的「推理模型」，例如 o1，也會在微不足道的任務上失敗：它在幾秒鐘的處理後就能正確地數出「草莓」中的「r」，但當它要寫一段文字，每句的第二個字母組成一個單字時，它就失敗了。200 美元/月的高級版則需要四分鐘才能解決兒童立即完成的問題。2025 年的 DeepSeek 和 Mistral 仍然會計算錯誤的字母。新興的解決方案？混合式方法--最聰明的模型已經知道何時該呼叫真正的計算機，而不是自己嘗試計算。範式轉移：AI 不一定要知道如何做所有事情，而是要協調正確的工具。最後的悖論：GPT-4 可以精闢地向您解釋極限理論，但卻會弄錯口袋計算機總是能正確解決的乘法運算。對於數學教育來說，它們是極佳的工具 - 以無限的耐心解釋、適應範例、分解複雜的推理。對於精確的計算？依靠計算機，而不是人工智慧。

Fabio Lauria

首席執行官兼 Electe‍ 創辦人

使用 AI 總結本文

許多人依賴 LLM來執行數學運算。這種方法行不通。

問題其實很簡單：大型語言模型 (LLM) 並不真的懂得乘法。它們有時會得到正確的結果，就像我可能熟知 pi 的值一樣。但這並不代表我是數學家，也不代表 LLM 真的懂得數學。

實例

例如：49858 *59949 = 298896167242 這個結果永遠是一樣的，沒有中間值。不是對就是錯。

即使經過大量的數學訓練，最好的模型也只能正確解決部分的運算。另一方面，一個簡單的袖珍計算機卻能得到 100% 的正確結果，永遠如此。而且數字越大，LLM 的表現就越差。

有可能解決這個問題嗎？

基本問題是這些模型是透過相似性來學習，而不是透過理解來學習。它們在處理與訓練過的問題相似的問題時效果最佳，但卻無法真正理解問題的意思。

對於想要瞭解更多資訊的人，我建議您閱讀這篇文章"法學碩士如何運作".

另一方面，計算機使用編程的精確演算法來執行數學運算。

這就是我們絕對不能完全依賴 LLM 進行數學計算的原因：即使在最好的條件下，有大量的特定訓練資料，它們也無法保證最基本操作的可靠性。混合方法也許可行，但僅有 LLM 是不夠的。也許在解決所謂的「草莓問題」時，也會採用這種方法。

法學碩士在數學研究中的應用

在教育環境中，LLM 可以充當個人化的導師，能夠根據學生的理解程度調整解釋。例如，當學生面臨微分問題時，LLM 可以將推理分解成較簡單的步驟，並針對解決過程中的每個步驟提供詳細解釋。這種方法有助於建立對基本概念的紮實理解。

一個特別有趣的方面是 LLM 能夠產生相關和多樣化的例子。如果學生正在嘗試理解極限的概念，LLM 可以提出不同的數學情境，從簡單的情況開始，進而到較複雜的情況，從而讓學生逐步理解這個概念。

一個很有前途的應用是使用 LLM 將複雜的數學概念轉換成更容易理解的自然語言。這有助於向更廣泛的受眾傳達數學知識，並有助於克服學習這門學科的傳統障礙。

LLM 也可以協助準備教材，產生不同難度的練習，並針對學生提出的解決方案提供詳細的回饋。這可讓教師更好地為學生定制學習路徑。

真正的優勢

此外，更廣泛而言，還要考慮到即使是最沒有「能力」的學生，在幫助他們學習時也要有極大的「耐心」：在這種情況下，沒有情緒會有所幫助。儘管如此，即使是 ai 有時候也會「失去耐心」。請看這個「有趣的例子.

‍

更新 2025：推理模型與混合方法

2024-2025 年，隨著所謂「推理模型」的出現，例如 OpenAI o1 和deepseekR1，帶來了重大的發展。這些模型在數學基準上取得了令人印象深刻的成績：o1 正確解決了國際數學奧林匹克中 83% 的問題，而 GPT-4o 則只有 13%。但請注意：它們並沒有解決上述的基本問題。

o1 在經過幾秒鐘的「推理」之後，就能正確解決這個問題，但如果你要求它寫一段文字，每句的第二個字母組成 "CODE "這個單字，它就會失敗。DeepSeek R1 和其他最近的機型還是會弄錯基本的計數。2025 年 2 月，Mistral 一直回答 'strawberry「中只有兩個」r'。

正在出現的訣竅是混合方法：當它們必須將 49858 乘以 5994949 時，更先進的模型不再嘗試根據與訓練期間所見計算的相似性來「猜測」結果。取而代之的是，它們會呼叫計算機或執行 Python 程式碼，就像知道自己極限的智慧型人類所做的一樣。

這種「工具使用」代表了一種範式的轉變：人工智慧不一定要能獨力完成所有事情，但必須能夠協調適當的工具。推理模型結合了理解問題的語言能力、規劃解決方案的逐步推理能力，以及委託專業工具（計算機、Python 解譯器、資料庫）進行精確執行的能力。

教訓？2025 年的 LLMs 在數學上更有用，不是因為他們「學會」了乘法 - 他們還沒有真正做到 - 而是因為他們中的一些人已經開始明白，何時應該把乘法交給那些真正會做乘法的人。基本的問題仍然存在：他們是透過統計相似性來運算，而不是透過演算法的理解來運算。對於精確的計算，5 歐元的計算機仍然無限可靠。

‍

促進業務成長的資源

2025年12月26日