宣布'草莓草莓"由 OpenAI 發表,讓人們注意到語言模型的基本限制:它們無法分析單字中的個別字母。這個弱點揭示了它們如何運作的深刻層面。
計數問題
當 ChatGPT 被要求計算 'strawberry「 一詞中的 」r' 時,模型經常會出錯。這個錯誤不是因為智慧不足,而是語言模型分析文字的方式造成的。要了解原因,我們需要知道 標記化.
透過代幣看世界
語言模型並非將單字視為字母序列,而是將其視為 「記號」--轉換為數字的意義單元。這就像閱讀一本書,書中的每個單字都由數字代碼取代。例如,"schoolbooks「(教科書)一詞就分為兩個獨立的記號:」school「(學校)和 」books"(書籍)。這解釋了為什麼模型很難正確計算這個單字中的 'o' - 它實際上沒有將它視為一個單字。
具啟發性的例子
想像一下,在學習一種語言時,"school「(學校)一詞總是用數字 」412 "來表示。如果有人問您'412「裡面有多少個」o',我們在沒有看過這個字完整寫出來的情況下,是無法正確回答的。語言模型也有類似的情況:它們透過數字來處理意義,而無法獲得字面的組合。
複合詞的挑戰
複合詞的問題就更嚴重了。Timekeeper「被分割成不同的標記,使得模型難以確定字母」and'的確切位置。這種分割不僅會影響字母計數,也會影響對內部字詞結構的理解。
草莓問題的解決方案(或許)
未來的 OpenAI 模型 Strawberry 應該會透過引進創新的文字處理方式來克服這個限制。與其僅依賴傳統的標記化,該模型應該能夠在單個字母的層級上分析文字,從而進行更精確的計數和分析作業。
未來影響
這個問題的重要性超越了簡單的字母計算。這種粒度分析能力可大幅提升人工智慧模型的語言理解能力,使其能夠處理需要在字元層級進行詳細文字分析的問題。
計劃中的整合技術將是語言模型方向上的一大進步,它更有能力「推理」語言的基本細節,而不僅僅是統計模式。


