如何訓練人工智慧模型
人工智慧模型的訓練是當代科技發展中最複雜的挑戰之一。模型的有效訓練並不只是一個簡單的演算法問題,而是需要一種結合資料科學、領域知識和軟體工程的多學科方法。正如 James Luke 在他的開創性著作「Beyond Algorithms: Delivering AI for Business」中所指出的,AI 實作的成功取決於資料管理和系統設計,而非演算法本身。隨著 DeepSeek-R1 模型等創新技術重新定義了成本和可及性,這個領域正在快速變化。
基礎:資料收集與管理
重量不重質
與人們通常認為的相反,資料的數量並不總是成功的決定因素。資料的品質和代表性顯得更加重要。在此背景下,整合不同的資料來源至關重要:
- 專屬資料:由現有實施以符合道德的方式收集並匿名化
- 授權資料:來自符合嚴格品質標準的可靠供應商
- 開放原始碼資料集:經過仔細驗證,以確保多樣性與準確性
- 合成資料:人工產生,以填補缺口並解決隱私權問題
這種整合創造了一個全面的訓練基礎,可捕捉真實世界的情境,同時維持道德與隱私標準。
資料準備的挑戰
在人工智慧專案中,「資料整理」的過程佔了高達 80% 的工作量。這個階段包括:
- 資料清理:消除不一致、重複和異常值
- 資料轉換:轉換為適合處理的格式
- 資料整合:融合經常使用不相容模式和格式的不同來源
- 處理遺漏資料:統計估算或使用替代資料等策略
正如美國運通首席技術官 Hilary Packer 指出:"老實說,對我們來說,最重要的是數據。您可以做出世界上最好的模型選擇......但數據才是關鍵。驗證和準確性現在是生成式人工智能的聖杯"。
模型架構:適當的大小
模型架構的選擇必須以要解決問題的特定性質為導向,而不是以個人的傾向或偏好為導向。不同類型的問題需要不同的方法:
- 基於轉換器的語言模型用於需要深入語言理解的任務
- 用於圖像和模式識別的卷積神經網路
- 用於分析實體間複雜關係的圖形神經網絡
- 優化和決策問題的強化學習
- 針對複雜用例結合多種方法的混合式架構
架構最佳化需要在不同配置之間進行系統性評估,並著重於平衡效能與計算需求,隨著 DeepSeek-R1 等模型的出現,這方面變得更加重要,因為這些模型能以大幅降低的成本提供先進的推理能力。
先進的訓練方法
蒸餾模型
在目前的人工智能生態系統中,蒸餾已經成為一種特別強大的工具。這個過程可以創造更小、更特別的模型,繼承更大型、更複雜模型的推理能力,例如 DeepSeek-R1。
如 DeepSeek 的案例所示,該公司在數個較小的模型上提煉了推理能力,包括 Meta 的 Llama 系列和阿里巴巴的 Qwen 系列的開源模型。這些較小的模型隨後可針對特定任務進行最佳化,加速趨向快速且專門的模型。
機器學習開發人員 Sam Witteveen 觀察到:「我們開始進入一個人們使用多種模型的世界。他們不會一直只使用一種模型"。這包括低成本的封閉模型,例如 Gemini Flash 和 GPT-4o Mini,這些模型「在 80% 的使用案例中都非常好用」。
多任務學習
多任務學習不需要為相關技能訓練獨立的模型,而是允許模型在不同功能之間分享知識:
- 模型可同時針對多個相關目標進行最佳化
- 更廣泛地接觸不同的工作,讓基本功能獲益良多
- 所有任務的效能都有所提升,尤其是資料有限的任務
- 透過元件共用提高運算效率
監督微調 (SFT)
對於在非常特殊的領域中運作的公司而言,網路或通常用於訓練語言模型的書籍中並沒有廣泛的資訊,有監督的微調 (SFT) 是一種有效的選擇。
DeepSeek 展示了使用 「成千上万 」的问答数据集取得良好结果的可能性。例如,IBM 工程師 Chris Hay 展示了他如何使用自己的數學特定資料集建立一個小型模型,並獲得極快的答案,在相同的任務上超越 OpenAI 的 o1 模型的效能。
強化學習 (RL)
希望進一步對應特定偏好來訓練模型的公司 - 例如,要讓客戶支援聊天機器人有同理心但又要簡潔 - 會想要實作強化學習 (RL) 技術。如果公司希望聊天機器人根據使用者的回饋調整語氣和建議,這種方法就特別有用。
擷取增強世代 (RAG)
對大多數公司而言,Retrieval-Augmented Generation (RAG) 是最簡單、最安全的途徑。這是一個相對簡單的流程,可讓企業利用資料庫中的專屬資料錨定其模型,確保輸出準確且針對特定領域。
根據 Vectara 進行的一項研究,這種方法也有助於抵消 DeepSeek 等模型所產生的一些幻覺問題,目前有 14% 的案例會產生幻覺,而 OpenAI 的 o3 模型只有 8% 會產生幻覺。
對大多數公司來說,模型蒸餾與 RAG 的結合是神奇之處,即使對於資料科學或程式設計技能有限的人來說,也變得非常容易實作。
評估與改進:超越精確度指標
有效的人工智慧不只是以原始的精確度來衡量,而是需要一個全面的評估架構來考量:
- 功能準確性:模型產生正確結果的頻率
- 穩定性: 在不同輸入和條件下性能的一致性
- 公平性:不同使用者群組和使用情境下的一致效能
- 校正:置信分數與實際準確度之間的一致性
- 效率:運算和記憶體需求
- 可說明性:決策過程的透明性,DeepSeek 的精煉模型在這方面表現優異,可顯示其推理過程。
成本曲線的影響
DeepSeek 發表最直接的影響是其積極的降價。技術產業預期成本會隨著時間下降,但很少有人料到這會發生得如此迅速。DeepSeek 證明了功能強大的開放式模型可以既便宜又高效,為廣泛的實驗和具有成本效益的實施創造了機會。
Vectara 執行長 Amr Awadallah 強調這一點,並指出真正的臨界點不只是訓練成本,而是推理成本,DeepSeek 每個代幣的推理成本約為 OpenAI 的 o1 或 o3 模型的 1/30。"Awadallah表示:「OpenAI、Anthropic和Google Gemini所能攫取的利潤,現在至少得減少90%,因為他們無法以如此高的價格來維持競爭力。
不僅如此,這些成本還會持續降低。Anthropic 執行長 Dario Amodei 最近表示,開發模型的成本每年以約四倍的速度持續降低。因此,LLM 供應商收取的費用也將持續降低。
Intuit 的 CDO Ashok Srivastava 表示:「我完全預期成本將降至零,」Intuit 是一家在 TurboTax 和 Quickbooks 等稅務與會計軟體產品中大力推動 AI 的公司。"......而延遲將趨於零。它們將簡單地成為我們可以使用的基本能力"。
結論:商業 AI 的未來是開放、廉價和資料驅動的
OpenAI 的 DeepSeek 和 Deep Research 不僅是 AI 武庫中的新工具,更是深刻變化的跡象,在這種變化中,公司將部署大量專門打造的模型,這些模型極具成本效益、能力強大,並且植根於公司自身的資料和方法。
對於公司而言,這個訊息很清楚:建立強大的特定領域 AI 應用程式的工具就在眼前。如果您不利用這些工具,就有可能落後於人。但真正的成功將來自於您如何整理資料、利用 RAG 和蒸餾等技術,以及超越預先訓練階段的創新。
正如 AmEx 的 Packer 所說:能夠正確管理資料的公司將領導人工智能的下一波創新。


