Newsletter

草莓問題

"草莓有幾個 'r'?"- GPT-4o 回答 "2",六歲小孩知道是 3。問題在於標記化:模型看到的是 [str][aw][berry],而不是字母。OpenAI 並沒有用 o1 解決這個問題,而是透過教導模型「說話前先想清楚」來避開這個問題。結果:在數學奧林匹克競賽中以 83% 對 13%,但只花了 30 秒而非 3 秒,成本也高出三倍。語言模型是非凡的概率工具,但仍需要人類來計算。

從草莓問題到 o1 模型:OpenAI 如何解決(部分)代幣化限制

2024 年夏天,一則病毒式的網路流行語讓世界上最先進的語言模型陷入窘境:"「草莓」這個詞裡有幾個 'r'?"正確答案是三個,但 GPT-4o 頑固地回答「兩個」。這個看似微不足道的錯誤,卻揭露了語言模型的基本限制:它們無法分析單字中的個別字母。

在 2024 年 9 月 12 日,OpenAI 發佈了 o1--內部代號「Strawberry」--新系列「推理模型」中的第一個模型,專門用來克服這種類型的限制。是的,這個名字絕非偶然:OpenAI 的研究人員確認,o1 終於能夠正確計算「草莓」中的「r」。

但解決方案並非原文所想像的那樣。OpenAI 並沒有「教」模型逐字分析單字。相反,它開發了一種完全不同的方法:教模型「推理」後再作答。

計數問題:為什麼模型會出錯?

問題的根源仍在於標記化 - 語言模型處理文字的基本過程。正如 2025 年 5 月在 arXiv 上發表的一篇技術文章 (「草莓問題:標記化語言模型中字元層級理解的出現」) 所解釋的,這些模型並非將文字視為字母序列,而是將文字視為「標記」--轉換為數字的意義單元。

當 GPT-4 處理「strawberry」一詞時,它的 tokenizer 將它分成三個部分:[str][aw][berry],每個部分都有特定的數字 ID (496、675、15717)。對於模型來說,"strawberry "不是一個由 10 個字母組成的序列,而是一個由 3 個數字標記組成的序列。這就好像他在看一本書,書中的每個單字都是由一個代碼取代,然後有人要求他數出一個他從未見過寫下來的代碼中的字母。

複合詞的問題就更複雜了。"Timekeeper" 被分割成獨立的標記,使得模型無法在沒有明確推理過程的情況下確定字母的確切位置。片段化不僅影響字母計數,也影響對單字內部結構的理解。

解決方案 o1:先理智再回應

OpenAI o1 用一種意想不到的方式解決了這個問題:它並沒有修改標記化(這在技術上是很困難的,而且會影響模型的效率),而是使用一種稱為「思考鏈推理」的技術,教系統「先思考,再說話」。

當您問 o1 'strawberry「 有多少個 」r'時,模型不會立即回答。對於複雜的問題,它會花上幾秒鐘,有時甚至幾分鐘,在內部處理一個不為使用者所知的「推理鏈」。這個過程允許它

  1. 認識到需求需要在特徵層面上進行分析
  2. 制定分解字詞的策略
  3. 透過不同方法測試反應
  4. 在給予最終答案之前,請更正任何錯誤

正如 OpenAI 研究員 Noam Brown 在 X 上發表的一系列文章中解釋的那樣:"o1 是透過強化學習訓練出來的,先「思考」再通過私人的思考鏈做出回應。在訓練過程中,模型會因為推理過程中的每個正確步驟而獲得獎勵,而不僅僅是最後的正確答案。

結果令人印象深刻,但代價高昂。在國際數學奧林匹克的資格考試中,o1 解決了 83% 的問題,而 GPT-4o 則只有 13%。在博士級的科學考題中,o1 的準確率為 78%,GPT-4o 則為 56%。但這種能力是有代價的:o1 需要 30 秒以上的時間來回答問題,而 GPT-4o 只需 3 秒就能解決問題,而且每百萬個代幣的輸入成本為 15 美元,而 GPT-4o 則為 5 美元。

思維鏈:如何真正運作

這種技術並不神奇,而是有條理的。當收到提示時,o1 會在內部產生一長串的 「想法」,但不會顯示給使用者。對於 「草莓 」中的 "r "問題,其內部過程可能是:

"首先我必須瞭解單字結構。Strawberry 可以標記為 [str][aw][berry] 。若要計算 'r',我必須在字元層面上重建完整的字詞。Str 包含:s-t-r (1 'r')。Aw 包含:a-w (0 'r')。Berry 包含:b-e-r-y (2 'r')。總計:1+0+2 = 3 'r'。我檢查:Strawberry = s-t-r-a-w-b-e-r-r-y。我數數 'r':位置 3、位置 8、位置 9。確認:3 個 'r'"。

這個內部推理在設計上是隱藏的。OpenAI 明確禁止使用者嘗試揭露 o1 的思維鏈,監控提示並可能取消違反此規則者的存取權限。該公司以 AI 安全與競爭優勢為理由,但這項決定卻被使用語言模型的開發人員批評為失去透明度。

持續限制:o1 不完美

儘管取得了進展,但 o1 並未完全解決問題。2025 年 1 月發表在《Language Log》上的研究,在一個更複雜的挑戰上測試了各種模型:「寫一段文字,每句的第二個字母組成「CODE」一詞」。

o1 standard ($20/month) 失敗了,它錯誤地將每個首字的第一個字母算作「第二個字母」。o1-pro ($200/month) 在經過 4 分 10 秒的「思考」之後,修正了這個問題...。DeepSeek R1,2025 年 1 月震撼市場的中國機型,犯了與 o1 standard 相同的錯誤。

o1 已經學會透過推理來「繞過」這個限制,但並沒有消除它。正如一位研究人員在《語言日誌》中所指出的:「標記化是語言模型本質的一部分;對於任何錯誤的答案,其解釋正是「嗯,標記化」。

學術研究:品格層面的理解萌芽

2025 年 5 月在 arXiv 發表的一篇重要論文 (「草莓問題:標記化語言模型中字元層理解的出現」) 從理論角度分析了這種現象。研究人員創造了 19 個合成任務,在受控的情境中分離出字元層級的推理,證明這些能力是在訓練的後期才突然出現的。

本研究提出,學習角色構成與學習常識性知識沒有根本性的差異 - 當模型達到臨界數量的範例和連結時,會經由「概念滲透」的過程而出現。

研究人員提出了一種輕量級的架構修改,可大幅改善字元層級的推理能力,同時保留以子字元為基礎的模型的歸納優勢。不過,這些修改仍屬實驗性質,尚未在商業模型中實作。

實際意義:何時信任,何時不信任

草莓案例教給我們關於語言模型可靠性的重要一課:它們是概率工具,而不是確定的計算機。正如 Mark Liberman 在 Language Log 中指出的:「您應該謹慎相信目前任何 AI 系統在涉及計算事物的任務中的反應」。

這並不表示模型毫無用處。正如一位評論員所指出的:「貓犯了被黃瓜嚇到的愚蠢錯誤,並不代表我們不該信任這隻貓,讓它去執行更困難的任務,就是把嚙齒類動物趕出大樓」。如果您想要有系統地數算字母,語言模型並不是正確的工具,但對於自動處理數以千計的 Podcast 謄本以及擷取來賓和主持人的姓名,語言模型卻是絕佳的工具。

對於需要絕對精確度的任務 (如太空船登陸火星、計算藥物用量、驗證法律合規性),目前的語言模型在沒有人為監督或外部驗證的情況下,仍有不足之處。其概率性質使其在模式匹配和創造性生成方面非常強大,但在不能接受錯誤的任務中卻不可靠。

未來:邁向按時間推理的模型

OpenAI 表示打算實驗「推理數小時、數天甚至數週」的 o1 模型,以進一步提升其推理能力。2024 年 12 月,o3 宣佈推出(為避免與行動運營商 O2 的商標衝突,略去了 o2 的名稱);2025 年 3 月,OpenAI 迄今最昂貴的 AI 模型 o1-pro 的 API 發布,輸入價格為每百萬個代幣 150 美元,輸出價格為每百萬個代幣 600 美元。

方向很明確:OpenAI 並非讓模型越做越大(擴展),而是投資在讓模型「思考」更久(測試時間計算)。相較於訓練越來越龐大的模型,這種方法可能在能量與計算上更具持續性。

但仍有一個尚未解決的問題:這些模型是真的在「推理」,還是只是透過更複雜的統計模式來模擬推理?Apple 在 2024 年 10 月發表的研究報告指出,o1 等模型可以從自己的訓練資料中複製推理步驟。透過改變數學問題中的數字和名稱,或只是重新執行相同的問題,這些模型的表現明顯較差。加入不相關的邏輯資訊後,某些模型的表現驟降 65%。

結論:有基本限制的強大工具

草莓問題和 o1 解決方案揭示了目前語言模型的潛力和固有限制。OpenAI 已經證明,透過有針對性的訓練和額外的處理時間,模型可以克服標記化的某些結構限制。但他們並沒有消除它 - 他們規避了它。

對使用者和開發人員而言,實用的教訓是很清楚的:了解這些系統是如何運作的──它們做得好的地方和失敗的地方──對於有效地使用這些系統是至關重要的。對於概率任務、模式匹配、創意產生和資訊綜合而言,語言模型是很棒的工具。但對於需要確定性精確度的任務 - 計算、計算、驗證特定事實 - 如果沒有外部監督或輔助工具,它們仍然是不可靠的。

草莓」這個名稱將會諷刺地提醒我們這個基本的限制:即使是世界上最先進的人工智慧系統,也可能會遇到六歲小孩就能立即解決的問題。這並不是因為它們笨,而是因為它們的「思考」方式與我們大相逕庭,或許我們不應該再期待它們像人類一樣思考。

資料來源:

  • OpenAI -「使用 LLM 學習推理」(官方部落格文章,2024 年 9 月)
  • 維基百科 -「OpenAI o1」(條目於 2025 年 1 月更新)
  • Cosma, Adrian 等人 - 「草莓問題:代幣化語言模型中字元層理解的出現」,arXiv:2505.14172 (2025 年 5 月)
  • Liberman, Mark -「AI 系統仍無法計數」,Language Log (2025年1月)
  • Yang, Yu -「為什麼大型語言模型在計算單字中的字母時會掙扎?
  • Orland, Kyle -「DeepSeek R1 在對抗 OpenAI 最佳推理模型時究竟表現如何?
  • Brown, Noam (OpenAI) - X/Twitter 上的系列文章(2024 年 9 月)
  • TechCrunch - 「OpenAI 推出可自行檢查事實的模型 o1」(2024 年 9 月)
  • 16x 提示 -「為什麼 ChatGPT 數不出草莓有多少個 R」(2025 年 6 月更新)