Fabio Lauria

超越演算法:人工智慧模型如何訓練與改進

2025 年 4 月 7 日
在社交媒體上分享

如何訓練人工智慧模型

人工智慧模型的訓練是當代科技發展中最複雜的挑戰之一。模型的有效訓練並不只是一個簡單的演算法問題,而是需要一種結合資料科學、領域知識和軟體工程的多學科方法。正如 James Luke 在他的開創性著作「Beyond Algorithms: Delivering AI for Business」中所指出的,AI 實作的成功取決於資料管理和系統設計,而非演算法本身。隨著 DeepSeek-R1 模型等創新技術重新定義了成本和可及性,這個領域正在快速變化。

基礎:資料收集與管理

重量不重質

與人們通常認為的相反,資料的數量並不總是成功的決定因素。資料的品質和代表性顯得更加重要。在此背景下,整合不同的資料來源至關重要:

  • 專屬資料:由現有實施以符合道德的方式收集並匿名化
  • 授權資料:來自符合嚴格品質標準的可靠供應商
  • 開放原始碼資料集:經過仔細驗證,以確保多樣性與準確性
  • 合成資料:人工產生,以填補缺口並解決隱私權問題

這種整合創造了一個全面的訓練基礎,可捕捉真實世界的情境,同時維持道德與隱私標準。

資料準備的挑戰

在人工智慧專案中,「資料整理」的過程佔了高達 80% 的工作量。這個階段包括:

  • 資料清理:消除不一致、重複和異常值
  • 資料轉換:轉換為適合處理的格式
  • 資料整合:融合經常使用不相容模式和格式的不同來源
  • 處理遺漏資料:統計估算或使用替代資料等策略

正如美國運通首席技術官 Hilary Packer 指出:"老實說,對我們來說,最重要的是數據。您可以做出世界上最好的模型選擇......但數據才是關鍵。驗證和準確性現在是生成式人工智能的聖杯"。

模型架構:適當的大小

模型架構的選擇必須以要解決問題的特定性質為導向,而不是以個人的傾向或偏好為導向。不同類型的問題需要不同的方法:

  • 基於轉換器的語言模型用於需要深入語言理解的任務
  • 用於圖像和模式識別的卷積神經網路
  • 用於分析實體間複雜關係的圖形神經網絡
  • 優化和決策問題的強化學習
  • 針對複雜用例結合多種方法的混合式架構

架構最佳化需要在不同配置之間進行系統性評估,並著重於平衡效能與計算需求,隨著 DeepSeek-R1 等模型的出現,這方面變得更加重要,因為這些模型能以大幅降低的成本提供先進的推理能力。

先進的訓練方法

蒸餾模型

在目前的人工智能生態系統中,蒸餾已經成為一種特別強大的工具。這個過程可以創造更小、更特別的模型,繼承更大型、更複雜模型的推理能力,例如 DeepSeek-R1。

如 DeepSeek 的案例所示,該公司在數個較小的模型上提煉了推理能力,包括 Meta 的 Llama 系列和阿里巴巴的 Qwen 系列的開源模型。這些較小的模型隨後可針對特定任務進行最佳化,加速趨向快速且專門的模型。

機器學習開發人員 Sam Witteveen 觀察到:「我們開始進入一個人們使用多種模型的世界。他們不會一直只使用一種模型"。這包括低成本的封閉模型,例如 Gemini Flash 和 GPT-4o Mini,這些模型「在 80% 的使用案例中都非常好用」。

多任務學習

多任務學習不需要為相關技能訓練獨立的模型,而是允許模型在不同功能之間分享知識:

  • 模型可同時針對多個相關目標進行最佳化
  • 更廣泛地接觸不同的工作,讓基本功能獲益良多
  • 所有任務的效能都有所提升,尤其是資料有限的任務
  • 透過元件共用提高運算效率

監督微調 (SFT)

對於在非常特殊的領域中運作的公司而言,網路或通常用於訓練語言模型的書籍中並沒有廣泛的資訊,有監督的微調 (SFT) 是一種有效的選擇。

DeepSeek 展示了使用 「成千上万 」的问答数据集取得良好结果的可能性。例如,IBM 工程師 Chris Hay 展示了他如何使用自己的數學特定資料集建立一個小型模型,並獲得極快的答案,在相同的任務上超越 OpenAI 的 o1 模型的效能。

強化學習 (RL)

希望進一步對應特定偏好來訓練模型的公司 - 例如,要讓客戶支援聊天機器人有同理心但又要簡潔 - 會想要實作強化學習 (RL) 技術。如果公司希望聊天機器人根據使用者的回饋調整語氣和建議,這種方法就特別有用。

擷取增強世代 (RAG)

對大多數公司而言,Retrieval-Augmented Generation (RAG) 是最簡單、最安全的途徑。這是一個相對簡單的流程,可讓企業利用資料庫中的專屬資料錨定其模型,確保輸出準確且針對特定領域。

根據 Vectara 進行的一項研究,這種方法也有助於抵消 DeepSeek 等模型所產生的一些幻覺問題,目前有 14% 的案例會產生幻覺,而 OpenAI 的 o3 模型只有 8% 會產生幻覺。

對大多數公司來說,模型蒸餾與 RAG 的結合是神奇之處,即使對於資料科學或程式設計技能有限的人來說,也變得非常容易實作。

評估與改進:超越精確度指標

有效的人工智慧不只是以原始的精確度來衡量,而是需要一個全面的評估架構來考量:

  • 功能準確性:模型產生正確結果的頻率
  • 穩定性: 在不同輸入和條件下性能的一致性
  • 公平性:不同使用者群組和使用情境下的一致效能
  • 校正:置信分數與實際準確度之間的一致性
  • 效率:運算和記憶體需求
  • 可說明性:決策過程的透明性,DeepSeek 的精煉模型在這方面表現優異,可顯示其推理過程。

成本曲線的影響

DeepSeek 發表最直接的影響是其積極的降價。技術產業預期成本會隨著時間下降,但很少有人料到這會發生得如此迅速。DeepSeek 證明了功能強大的開放式模型可以既便宜又高效,為廣泛的實驗和具有成本效益的實施創造了機會。

Vectara 執行長 Amr Awadallah 強調這一點,並指出真正的臨界點不只是訓練成本,而是推理成本,DeepSeek 每個代幣的推理成本約為 OpenAI 的 o1 或 o3 模型的 1/30。"Awadallah表示:「OpenAI、Anthropic和Google Gemini所能攫取的利潤,現在至少得減少90%,因為他們無法以如此高的價格來維持競爭力。

不僅如此,這些成本還會持續降低。Anthropic 執行長 Dario Amodei 最近表示,開發模型的成本每年以約四倍的速度持續降低。因此,LLM 供應商收取的費用也將持續降低。

Intuit 的 CDO Ashok Srivastava 表示:「我完全預期成本將降至零,」Intuit 是一家在 TurboTax 和 Quickbooks 等稅務與會計軟體產品中大力推動 AI 的公司。"......而延遲將趨於零。它們將簡單地成為我們可以使用的基本能力"。

結論:商業 AI 的未來是開放、廉價和資料驅動的

OpenAI 的 DeepSeek 和 Deep Research 不僅是 AI 武庫中的新工具,更是深刻變化的跡象,在這種變化中,公司將部署大量專門打造的模型,這些模型極具成本效益、能力強大,並且植根於公司自身的資料和方法。

對於公司而言,這個訊息很清楚:建立強大的特定領域 AI 應用程式的工具就在眼前。如果您不利用這些工具,就有可能落後於人。但真正的成功將來自於您如何整理資料、利用 RAG 和蒸餾等技術,以及超越預先訓練階段的創新。

正如 AmEx 的 Packer 所說:能夠正確管理資料的公司將領導人工智能的下一波創新。

Fabio Lauria

執行長暨創辦人 Electe

Electe 的 CEO,我幫助中小企業做出數據驅動的決策。我撰寫關於商業世界中人工智慧的文章。

最受歡迎
註冊以獲取最新消息

在您的收件箱中接收每週新聞和見解
。不要錯過

謝謝!已收到您提交的資料!
哎呀!提交表格時出錯了。