Newsletter

為什麼數學很困難(即使您是人工智能)

語言模型不知道如何像我們記住 pi 一樣乘法記住結果,但這並不表示它們是數學家。問題出在結構上:它們是透過統計相似性來學習,而不是透過演算法的理解來學習。即使是新的「推理模型」,例如 o1,也會在微不足道的任務上失敗:它在幾秒鐘的處理後就能正確地數出「草莓」中的「r」,但當它要寫一段文字,每句的第二個字母組成一個單字時,它就失敗了。200 美元/月的高級版則需要四分鐘才能解決兒童立即完成的問題。2025 年的 DeepSeek 和 Mistral 仍然會計算錯誤的字母。新興的解決方案?混合式方法--最聰明的模型已經知道何時該呼叫真正的計算機,而不是自己嘗試計算。範式轉移:AI 不一定要知道如何做所有事情,而是要協調正確的工具。最後的悖論:GPT-4 可以精闢地向您解釋極限理論,但卻會弄錯口袋計算機總是能正確解決的乘法運算。對於數學教育來說,它們是極佳的工具 - 以無限的耐心解釋、適應範例、分解複雜的推理。對於精確的計算?依靠計算機,而不是人工智慧。

許多人依賴 LLM來執行數學運算。這種方法行不通。

問題其實很簡單:大型語言模型 (LLM) 並不真的懂得乘法。它們有時會得到正確的結果,就像我可能熟知 pi 的值一樣。但這並不代表我是數學家,也不代表 LLM 真的懂得數學。

實例

例如:49858 *59949 = 298896167242 這個結果永遠是一樣的,沒有中間值。不是對就是錯。

即使經過大量的數學訓練,最好的模型也只能正確解決部分的運算。另一方面,一個簡單的袖珍計算機卻能得到 100% 的正確結果,永遠如此。而且數字越大,LLM 的表現就越差。

有可能解決這個問題嗎?

基本問題是這些模型是透過相似性來學習,而不是透過理解來學習。它們在處理與訓練過的問題相似的問題時效果最佳,但卻無法真正理解問題的意思。

對於想要瞭解更多資訊的人,我建議您閱讀這篇文章"法學碩士如何運作".

另一方面,計算機使用編程的精確演算法來執行數學運算。

這就是我們絕對不能完全依賴 LLM 進行數學計算的原因:即使在最好的條件下,有大量的特定訓練資料,它們也無法保證最基本操作的可靠性。混合方法也許可行,但僅有 LLM 是不夠的。也許在解決所謂的「草莓問題」時,也會採用這種方法。

法學碩士在數學研究中的應用

在教育環境中,LLM 可以充當個人化的導師,能夠根據學生的理解程度調整解釋。例如,當學生面臨微分問題時,LLM 可以將推理分解成較簡單的步驟,並針對解決過程中的每個步驟提供詳細解釋。這種方法有助於建立對基本概念的紮實理解。

一個特別有趣的方面是 LLM 能夠產生相關和多樣化的例子。如果學生正在嘗試理解極限的概念,LLM 可以提出不同的數學情境,從簡單的情況開始,進而到較複雜的情況,從而讓學生逐步理解這個概念。

一個很有前途的應用是使用 LLM 將複雜的數學概念轉換成更容易理解的自然語言。這有助於向更廣泛的受眾傳達數學知識,並有助於克服學習這門學科的傳統障礙。

LLM 也可以協助準備教材,產生不同難度的練習,並針對學生提出的解決方案提供詳細的回饋。這可讓教師更好地為學生定制學習路徑。

真正的優勢

此外,更廣泛而言,還要考慮到即使是最沒有 「能力 」的學生,在幫助他們學習時也要有極大的 「耐心」:在這種情況下,沒有情緒會有所幫助。儘管如此,即使是 ai 有時候也會 「失去耐心」。請看這個「有趣的 例子.

更新 2025:推理模型與混合方法

2024-2025 年,隨著所謂「推理模型」的出現,例如 OpenAI o1 和deepseekR1,帶來了重大的發展。這些模型在數學基準上取得了令人印象深刻的成績:o1 正確解決了國際數學奧林匹克中 83% 的問題,而 GPT-4o 則只有 13%。但請注意:它們並沒有解決上述的基本問題。

o1 在經過幾秒鐘的 「推理 」之後,就能正確解決這個問題,但如果你要求它寫一段文字,每句的第二個字母組成 "CODE "這個單字,它就會失敗。DeepSeek R1 和其他最近的機型還是會弄錯基本的計數。2025 年 2 月,Mistral 一直回答 'strawberry「 中只有兩個 」r'。

正在出現的訣竅是混合方法:當它們必須將 49858 乘以 5994949 時,更先進的模型不再嘗試根據與訓練期間所見計算的相似性來「猜測」結果。取而代之的是,它們會呼叫計算機或執行 Python 程式碼,就像知道自己極限的智慧型人類所做的一樣。

這種「工具使用」代表了一種範式的轉變:人工智慧不一定要能獨力完成所有事情,但必須能夠協調適當的工具。推理模型結合了理解問題的語言能力、規劃解決方案的逐步推理能力,以及委託專業工具(計算機、Python 解譯器、資料庫)進行精確執行的能力。

教訓?2025 年的 LLMs 在數學上更有用,不是因為他們「學會」了乘法 - 他們還沒有真正做到 - 而是因為他們中的一些人已經開始明白,何時應該把乘法交給那些真正會做乘法的人。基本的問題仍然存在:他們是透過統計相似性來運算,而不是透過演算法的理解來運算。對於精確的計算,5 歐元的計算機仍然無限可靠。

促進業務成長的資源