許多人依賴 LLM來執行數學運算。這種方法行不通。
問題其實很簡單:大型語言模型 (LLM) 並不真的懂得乘法。它們有時會得到正確的結果,就像我可能熟知 pi 的值一樣。但這並不代表我是數學家,也不代表 LLM 真的懂得數學。
實例
例如:49858 *59949 = 298896167242 這個結果永遠是一樣的,沒有中間值。不是對就是錯。

即使經過大量的數學訓練,最好的模型也只能正確解決部分的運算。另一方面,一個簡單的袖珍計算機卻能得到 100% 的正確結果,永遠如此。而且數字越大,LLM 的表現就越差。

有可能解決這個問題嗎?
基本問題是這些模型是透過相似性來學習,而不是透過理解來學習。它們在處理與訓練過的問題相似的問題時效果最佳,但卻無法真正理解問題的意思。
對於想要瞭解更多資訊的人,我建議您閱讀這篇文章"法學碩士如何運作".
另一方面,計算機使用編程的精確演算法來執行數學運算。
這就是我們絕對不能完全依賴 LLM 進行數學計算的原因:即使在最好的條件下,有大量的特定訓練資料,它們也無法保證最基本操作的可靠性。混合方法也許可行,但僅有 LLM 是不夠的。也許在解決所謂的「草莓問題」時,也會採用這種方法。
法學碩士在數學研究中的應用
在教育環境中,LLM 可以充當個人化的導師,能夠根據學生的理解程度調整解釋。例如,當學生面臨微分問題時,LLM 可以將推理分解成較簡單的步驟,並針對解決過程中的每個步驟提供詳細解釋。這種方法有助於建立對基本概念的紮實理解。
一個特別有趣的方面是 LLM 能夠產生相關和多樣化的例子。如果學生正在嘗試理解極限的概念,LLM 可以提出不同的數學情境,從簡單的情況開始,進而到較複雜的情況,從而讓學生逐步理解這個概念。
一個很有前途的應用是使用 LLM 將複雜的數學概念轉換成更容易理解的自然語言。這有助於向更廣泛的受眾傳達數學知識,並有助於克服學習這門學科的傳統障礙。
LLM 也可以協助準備教材,產生不同難度的練習,並針對學生提出的解決方案提供詳細的回饋。這可讓教師更好地為學生定制學習路徑。
真正的優勢
此外,更廣泛而言,還要考慮到即使是最沒有 「能力 」的學生,在幫助他們學習時也要有極大的 「耐心」:在這種情況下,沒有情緒會有所幫助。儘管如此,即使是 ai 有時候也會 「失去耐心」。請看這個「有趣的 例子.

更新 2025:推理模型與混合方法
2024-2025 年,隨著所謂「推理模型」的出現,例如 OpenAI o1 和deepseekR1,帶來了重大的發展。這些模型在數學基準上取得了令人印象深刻的成績:o1 正確解決了國際數學奧林匹克中 83% 的問題,而 GPT-4o 則只有 13%。但請注意:它們並沒有解決上述的基本問題。
o1 在經過幾秒鐘的 「推理 」之後,就能正確解決這個問題,但如果你要求它寫一段文字,每句的第二個字母組成 "CODE "這個單字,它就會失敗。DeepSeek R1 和其他最近的機型還是會弄錯基本的計數。2025 年 2 月,Mistral 一直回答 'strawberry「 中只有兩個 」r'。
正在出現的訣竅是混合方法:當它們必須將 49858 乘以 5994949 時,更先進的模型不再嘗試根據與訓練期間所見計算的相似性來「猜測」結果。取而代之的是,它們會呼叫計算機或執行 Python 程式碼,就像知道自己極限的智慧型人類所做的一樣。
這種「工具使用」代表了一種範式的轉變:人工智慧不一定要能獨力完成所有事情,但必須能夠協調適當的工具。推理模型結合了理解問題的語言能力、規劃解決方案的逐步推理能力,以及委託專業工具(計算機、Python 解譯器、資料庫)進行精確執行的能力。
教訓?2025 年的 LLMs 在數學上更有用,不是因為他們「學會」了乘法 - 他們還沒有真正做到 - 而是因為他們中的一些人已經開始明白,何時應該把乘法交給那些真正會做乘法的人。基本的問題仍然存在:他們是透過統計相似性來運算,而不是透過演算法的理解來運算。對於精確的計算,5 歐元的計算機仍然無限可靠。