草莓問題

使用 AI 總結本文

從草莓問題到 o1 模型：OpenAI 如何解決（部分）代幣化限制

2024 年夏天，一則病毒式的網路流行語讓世界上最先進的語言模型陷入窘境："「草莓」這個詞裡有幾個 'r'？"正確答案是三個，但 GPT-4o 頑固地回答「兩個」。這個看似微不足道的錯誤，卻揭露了語言模型的基本限制：它們無法分析單字中的個別字母。

在 2024 年 9 月 12 日，OpenAI 發佈了 o1--內部代號「Strawberry」--新系列「推理模型」中的第一個模型，專門用來克服這種類型的限制。是的，這個名字絕非偶然：OpenAI 的研究人員確認，o1 終於能夠正確計算「草莓」中的「r」。

但解決方案並非原文所想像的那樣。OpenAI 並沒有「教」模型逐字分析單字。相反，它開發了一種完全不同的方法：教模型「推理」後再作答。

計數問題：為什麼模型會出錯？

問題的根源仍在於標記化 - 語言模型處理文字的基本過程。正如 2025 年 5 月在 arXiv 上發表的一篇技術文章 (「草莓問題：標記化語言模型中字元層級理解的出現」) 所解釋的，這些模型並非將文字視為字母序列，而是將文字視為「標記」--轉換為數字的意義單元。

當 GPT-4 處理「strawberry」一詞時，它的 tokenizer 將它分成三個部分：[str][aw][berry]，每個部分都有特定的數字 ID (496、675、15717)。對於模型來說，"strawberry "不是一個由 10 個字母組成的序列，而是一個由 3 個數字標記組成的序列。這就好像他在看一本書，書中的每個單字都是由一個代碼取代，然後有人要求他數出一個他從未見過寫下來的代碼中的字母。

複合詞的問題就更複雜了。"Timekeeper" 被分割成獨立的標記，使得模型無法在沒有明確推理過程的情況下確定字母的確切位置。片段化不僅影響字母計數，也影響對單字內部結構的理解。

解決方案 o1：先理智再回應

OpenAI o1 用一種意想不到的方式解決了這個問題：它並沒有修改標記化（這在技術上是很困難的，而且會影響模型的效率），而是使用一種稱為「思考鏈推理」的技術，教系統「先思考，再說話」。

當您問 o1 'strawberry「有多少個」r'時，模型不會立即回答。對於複雜的問題，它會花上幾秒鐘，有時甚至幾分鐘，在內部處理一個不為使用者所知的「推理鏈」。這個過程允許它

認識到需求需要在特徵層面上進行分析
制定分解字詞的策略
透過不同方法測試反應
在給予最終答案之前，請更正任何錯誤

正如 OpenAI 研究員 Noam Brown 在 X 上發表的一系列文章中解釋的那樣："o1 是透過強化學習訓練出來的，先「思考」再通過私人的思考鏈做出回應。在訓練過程中，模型會因為推理過程中的每個正確步驟而獲得獎勵，而不僅僅是最後的正確答案。

結果令人印象深刻，但代價高昂。在國際數學奧林匹克的資格考試中，o1 解決了 83% 的問題，而 GPT-4o 則只有 13%。在博士級的科學考題中，o1 的準確率為 78%，GPT-4o 則為 56%。但這種能力是有代價的：o1 需要 30 秒以上的時間來回答問題，而 GPT-4o 只需 3 秒就能解決問題，而且每百萬個代幣的輸入成本為 15 美元，而 GPT-4o 則為 5 美元。

思維鏈：如何真正運作

這種技術並不神奇，而是有條理的。當收到提示時，o1 會在內部產生一長串的「想法」，但不會顯示給使用者。對於「草莓」中的 "r "問題，其內部過程可能是：

"首先我必須瞭解單字結構。Strawberry 可以標記為 [str][aw][berry] 。若要計算 'r'，我必須在字元層面上重建完整的字詞。Str 包含：s-t-r (1 'r')。Aw 包含：a-w (0 'r')。Berry 包含：b-e-r-y (2 'r')。總計：1+0+2 = 3 'r'。我檢查：Strawberry = s-t-r-a-w-b-e-r-r-y。我數數 'r'：位置 3、位置 8、位置 9。確認：3 個 'r'"。

這個內部推理在設計上是隱藏的。OpenAI 明確禁止使用者嘗試揭露 o1 的思維鏈，監控提示並可能取消違反此規則者的存取權限。該公司以 AI 安全與競爭優勢為理由，但這項決定卻被使用語言模型的開發人員批評為失去透明度。

持續限制：o1 不完美

儘管取得了進展，但 o1 並未完全解決問題。2025 年 1 月發表在《Language Log》上的研究，在一個更複雜的挑戰上測試了各種模型：「寫一段文字，每句的第二個字母組成「CODE」一詞」。

o1 standard ($20/month) 失敗了，它錯誤地將每個首字的第一個字母算作「第二個字母」。o1-pro ($200/month) 在經過 4 分 10 秒的「思考」之後，修正了這個問題...。DeepSeek R1，2025 年 1 月震撼市場的中國機型，犯了與 o1 standard 相同的錯誤。

o1 已經學會透過推理來「繞過」這個限制，但並沒有消除它。正如一位研究人員在《語言日誌》中所指出的：「標記化是語言模型本質的一部分；對於任何錯誤的答案，其解釋正是「嗯，標記化」。

學術研究：品格層面的理解萌芽

2025 年 5 月在 arXiv 發表的一篇重要論文 (「草莓問題：標記化語言模型中字元層理解的出現」) 從理論角度分析了這種現象。研究人員創造了 19 個合成任務，在受控的情境中分離出字元層級的推理，證明這些能力是在訓練的後期才突然出現的。

本研究提出，學習角色構成與學習常識性知識沒有根本性的差異 - 當模型達到臨界數量的範例和連結時，會經由「概念滲透」的過程而出現。

研究人員提出了一種輕量級的架構修改，可大幅改善字元層級的推理能力，同時保留以子字元為基礎的模型的歸納優勢。不過，這些修改仍屬實驗性質，尚未在商業模型中實作。

實際意義：何時信任，何時不信任

草莓案例教給我們關於語言模型可靠性的重要一課：它們是概率工具，而不是確定的計算機。正如 Mark Liberman 在 Language Log 中指出的：「您應該謹慎相信目前任何 AI 系統在涉及計算事物的任務中的反應」。

這並不表示模型毫無用處。正如一位評論員所指出的：「貓犯了被黃瓜嚇到的愚蠢錯誤，並不代表我們不該信任這隻貓，讓它去執行更困難的任務，就是把嚙齒類動物趕出大樓」。如果您想要有系統地數算字母，語言模型並不是正確的工具，但對於自動處理數以千計的 Podcast 謄本以及擷取來賓和主持人的姓名，語言模型卻是絕佳的工具。

對於需要絕對精確度的任務 (如太空船登陸火星、計算藥物用量、驗證法律合規性)，目前的語言模型在沒有人為監督或外部驗證的情況下，仍有不足之處。其概率性質使其在模式匹配和創造性生成方面非常強大，但在不能接受錯誤的任務中卻不可靠。

未來：邁向按時間推理的模型

OpenAI 表示打算實驗「推理數小時、數天甚至數週」的 o1 模型，以進一步提升其推理能力。2024 年 12 月，o3 宣佈推出（為避免與行動運營商 O2 的商標衝突，略去了 o2 的名稱）；2025 年 3 月，OpenAI 迄今最昂貴的 AI 模型 o1-pro 的 API 發布，輸入價格為每百萬個代幣 150 美元，輸出價格為每百萬個代幣 600 美元。

方向很明確：OpenAI 並非讓模型越做越大（擴展），而是投資在讓模型「思考」更久（測試時間計算）。相較於訓練越來越龐大的模型，這種方法可能在能量與計算上更具持續性。

但仍有一個尚未解決的問題：這些模型是真的在「推理」，還是只是透過更複雜的統計模式來模擬推理？Apple 在 2024 年 10 月發表的研究報告指出，o1 等模型可以從自己的訓練資料中複製推理步驟。透過改變數學問題中的數字和名稱，或只是重新執行相同的問題，這些模型的表現明顯較差。加入不相關的邏輯資訊後，某些模型的表現驟降 65%。

結論：有基本限制的強大工具

草莓問題和 o1 解決方案揭示了目前語言模型的潛力和固有限制。OpenAI 已經證明，透過有針對性的訓練和額外的處理時間，模型可以克服標記化的某些結構限制。但他們並沒有消除它 - 他們規避了它。

對使用者和開發人員而言，實用的教訓是很清楚的：了解這些系統是如何運作的──它們做得好的地方和失敗的地方──對於有效地使用這些系統是至關重要的。對於概率任務、模式匹配、創意產生和資訊綜合而言，語言模型是很棒的工具。但對於需要確定性精確度的任務 - 計算、計算、驗證特定事實 - 如果沒有外部監督或輔助工具，它們仍然是不可靠的。

草莓」這個名稱將會諷刺地提醒我們這個基本的限制：即使是世界上最先進的人工智慧系統，也可能會遇到六歲小孩就能立即解決的問題。這並不是因為它們笨，而是因為它們的「思考」方式與我們大相逕庭，或許我們不應該再期待它們像人類一樣思考。

資料來源：