業務

超越演算法：人工智慧模型如何訓練與改進

「資料是關鍵。美國運通的 CTO Hilary Packer。在 AI 專案中，資料處理佔了 80% 的工作。DeepSeek 改變了規則：推理成本是 OpenAI 的 1/30。Dario Amodei：成本每年下降 4 倍。「我預期成本會降至零」-Intuit 的 CDO。對大多數公司而言，蒸餾 + RAG 的組合才是神奇之處。未來？大量植根於公司資料的特定、廉價模型。

Fabio Lauria

首席執行官兼 Electe‍ 創辦人

使用 AI 總結本文

如何訓練人工智慧模型

人工智慧模型的訓練是當代科技發展中最複雜的挑戰之一。模型的有效訓練不僅僅是一個簡單的演算法問題，它需要一種有條理的多學科方法，將資料、資料科學、領域知識和軟體工程整合在一起。正如 James Luke 在他的開創性著作「Beyond Algorithms: Delivering AI for Business」中所指出的，AI 實作的成功取決於資料管理和系統設計，而非演算法本身。隨著 DeepSeek-R1 模型等創新技術重新定義了成本和可及性，這個領域正在快速變化。

‍

基礎：資料收集與管理

重量不重質

與人們通常認為的相反，資料的數量並不總是成功的決定因素。資料的品質和代表性顯得更加重要。在此背景下，整合不同的資料來源至關重要：

‍

專屬資料：由現有實施以符合道德的方式收集並匿名化
授權資料：來自符合嚴格品質標準的可靠供應商
開放原始碼資料集：經過仔細驗證，以確保多樣性與準確性
合成資料：人工產生，以填補缺口並解決隱私權問題

這種整合創造了一個全面的訓練基礎，可捕捉真實世界的情境，同時維持道德與隱私標準。

資料準備的挑戰

在人工智慧專案中，「資料整理」的過程佔了高達 80% 的工作量。這個階段包括：

資料清理：消除不一致、重複和異常值
資料轉換：轉換為適合處理的格式
資料整合：融合經常使用不相容模式和格式的不同來源
處理遺漏資料：統計估算或使用替代資料等策略

正如美國運通首席技術官 Hilary Packer 指出："老實說，對我們來說，最重要的是數據。您可以做出世界上最好的模型選擇......但數據才是關鍵。驗證和準確性現在是生成式人工智能的聖杯"。

‍

模型架構：適當的大小

模型架構的選擇必須以要解決問題的特定性質為導向，而不是以個人的傾向或偏好為導向。不同類型的問題需要不同的方法：

‍

基於轉換器的語言模型用於需要深入語言理解的任務
用於圖像和模式識別的卷積神經網路
用於分析實體間複雜關係的圖形神經網絡
優化和決策問題的強化學習
針對複雜用例結合多種方法的混合式架構

架構最佳化需要在不同配置之間進行系統性評估，並著重於平衡效能與計算需求，隨著 DeepSeek-R1 等模型的出現，這方面變得更加重要，因為這些模型能以大幅降低的成本提供先進的推理能力。

‍

先進的訓練方法

‍

蒸餾模型

在目前的人工智能生態系統中，蒸餾已經成為一種特別強大的工具。這個過程可以創造更小、更特別的模型，繼承更大型、更複雜模型的推理能力，例如 DeepSeek-R1。

‍

如 DeepSeek 的案例所示，該公司將其推理能力提煉到數個較小的模型上，包括 Meta 的 Llama 系列和阿里巴巴的 Qwen 系列的開源模型。這些較小的模型隨後可針對特定任務進行最佳化，加速趨向快速且專門的模型。

‍

機器學習開發人員 Sam Witteveen 觀察到：「我們開始進入一個人們使用多種模型的世界。他們不會一直只使用一種模型"。這包括低成本的封閉模型，例如 Gemini Flash 和 GPT-4o Mini，這些模型「在 80% 的使用案例中都非常好用」。

多任務學習

多任務學習不需要為相關技能訓練獨立的模型，而是允許模型在不同功能之間分享知識：

模型可同時針對多個相關目標進行最佳化
更廣泛地接觸不同的工作，讓基本功能獲益良多
所有任務的效能都有所提升，尤其是資料有限的任務
透過元件共用提高運算效率

監督微調 (SFT)

對於在非常特殊的領域中運作的公司而言，網路或通常用於訓練語言模型的書籍中並沒有廣泛的資訊，有監督的微調 (SFT) 是一種有效的選擇。

DeepSeek 展示了使用「成千上万」的问答数据集取得良好结果的可能性。例如，IBM 工程師 Chris Hay 展示了他如何使用自己的數學特定資料集建立一個小型模型，並獲得極快的答案，在相同的任務上超越 OpenAI 的 o1 模型的效能。

強化學習 (RL)

希望進一步對應特定偏好來訓練模型的公司 - 例如，要讓客戶支援聊天機器人有同理心但又要簡潔 - 會想要實作強化學習 (RL) 技術。如果公司希望聊天機器人根據使用者的回饋調整語氣和建議，這種方法就特別有用。

擷取增強世代 (RAG)

對大多數公司而言，Retrieval-Augmented Generation (RAG) 是最簡單、最安全的途徑。這是一個相對簡單的流程，可讓企業利用資料庫中的專屬資料錨定其模型，確保輸出準確且針對特定領域。

根據Vectara 進行的一項研究，這種方法也有助於抵消 DeepSeek 等模型所產生的一些幻覺問題，目前有 14% 的案例會產生幻覺，而 OpenAI 的 o3 模型只有 8% 會產生幻覺。

對大多數公司來說，模型蒸餾與 RAG 的結合是神奇之處，即使對於資料科學或程式設計技能有限的人來說，也變得非常容易實作。

‍

評估與改進：超越精確度指標

有效的人工智慧不只是以原始的精確度來衡量，而是需要一個全面的評估架構來考量：

功能準確性：模型產生正確結果的頻率
穩定性：在不同輸入和條件下性能的一致性
公平性：不同使用者群組和使用情境下的一致效能
校正：置信分數與實際準確度之間的一致性
效率：運算和記憶體需求
可說明性：決策過程的透明性，DeepSeek 的精煉模型在這方面表現優異，可顯示其推理過程。

成本曲線的影響

DeepSeek 發表最直接的影響是其積極的降價。技術產業預期成本會隨著時間下降，但很少有人料到這會發生得如此迅速。DeepSeek 證明了功能強大的開放式模型可以既便宜又高效，為廣泛的實驗和具有成本效益的實施創造了機會。

‍

Vectara 執行長 Amr Awadallah 強調這一點，並指出真正的臨界點不只是訓練成本，而是推理成本，DeepSeek 每個代幣的推理成本約為 OpenAI 的 o1 或 o3 模型的 1/30。"Awadallah表示：「OpenAI、Anthropic和Google Gemini所能攫取的利潤，現在至少得減少90%，因為他們無法以如此高的價格來維持競爭力。

‍

不僅如此，這些成本還會持續降低。Anthropic 執行長 Dario Amodei 最近表示，開發模型的成本每年以約四倍的速度持續降低。因此，LLM 供應商收取的費用也將持續降低。

‍

Intuit 的 CDO Ashok Srivastava 表示：「我完全預期成本會降至零，」Intuit 是一家在 TurboTax 和 Quickbooks 等稅務與會計軟體產品中大力推動 AI 的公司。"......而延遲將趨於零。它們將簡單地成為我們可以使用的基本能力"。

‍