Fabio Lauria

AI 訓練資料:推動人工智慧的百億商機

2025 年 9 月 14 日
在社交媒體上分享

讓 ChatGPT、穩定擴散和其他所有現代人工智能系統成為可能的隱形產業

AI 最為隱密的秘密

當您使用 ChatGPT 撰寫電子郵件或使用 Midjourney 產生圖片時,您很少會想到人工智慧的「魔力」背後是什麼。然而,在每一個智慧回應和每一個產生的圖像背後,都隱藏著一個很少人談論的數十億美元的產業:AI 訓練資料市場

根據MarketsandMarkets的資料,這個領域到 2029 年將達到95.8 億美元,年成長率為 27.7%,是現代人工智慧的真正引擎。但這個隱藏的事業究竟是如何運作的呢?

移動數十億人的隱形生態系統

商業巨頭

在 AI 訓練資料的世界裡,有幾家公司佔了主導地位,但大多數人卻從未聽過這些公司:

Scale AI 是業界最大的公司,擁有28% 的市場佔有率,最近在 Meta 投資後,估值達到290 億美元。他們的企業客戶每年支付10 萬到幾百萬美元不等的費用來購買高品質的資料。

總部位於澳洲的Appen 擁有一個170 個國家超過 100 萬名專家組成的全球網路,這些專家會為 AI 人工智慧手動標籤與整理資料。Airbnb、John Deere 和 Procter & Gamble等公司都使用他們的服務來「教導」自己的 AI 模型。

開放原始碼世界

與此同時,還有一個由LAION(大型人工智慧開放網路) 等組織領導的開放原始碼生態系統,LAION 是德國的非營利組織,創造了LAION-5B,這個包含58.5 億張圖片與文字對的資料集,讓 Stable Diffusion 成為可能。

Common Crawl每月會釋放TB 級的原始網頁資料,用於訓練 GPT-3、LLaMA 及其他許多語言模型。

人工智慧的隱藏成本

大眾所不知道的是,訓練一個現代 AI 模型的成本已變得多麼昂貴。根據Epoch AI 的資料,過去八年來,成本每年增加2-3 倍

實際成本的例子:

最令人驚訝的數字?根據AltIndex.com 的資料,自 2020 年以來,AI 訓練成本已增加 4300%

業界的道德與法律挑戰

版權問題

其中最具爭議性的問題是關於版權資料的使用。2025 年 2 月,特拉華州法院在Thomson Reuters v. ROSS Intelligence一案中裁定,AI 訓練可構成直接的著作權侵權,駁回「合理使用」的抗辯理由。

美國版權局(US Copyright Office)發表了一份 108 頁的報告,結論是某些用途不能被辯護為合理使用,為人工智慧公司潛在的龐大授權費用鋪路。

隱私權與個人資料

麻省理工科技評論》的調查顯示,DataComp CommonPool 是使用最廣泛的資料集之一,其中包含數百萬張護照、信用卡和出生證明的影像。過去兩年的下載量超過 200 萬次,這引起了巨大的隱私權問題。

未來:稀缺與創新

峰值資料的問題

專家預測,到2028 年,大部分人為產生的線上公共文字都將被使用。這種「資料峰值」情境正驅使企業朝向創新的解決方案邁進:

  • 合成資料:人工產生訓練資料
  • 授權協議:類似 OpenAI 與《金融時報》之間的戰略合作關係
  • 多模式資料:結合文字、影像、音訊和視訊

新規範即將推出

加州 AI 透明化法案將要求公司揭露用於訓練的資料集,而歐盟也正在 AI 法案中實施類似要求。

義大利企業的機會

對於想要開發 AI 解決方案的公司而言,了解這個生態系統至關重要:

經濟實惠的選擇:

企業解決方案:

  • AIAppen擴充至關鍵任務專案
  • 專業服務:例如 NLP 的 Nexdata 或音訊資料的 FileMarket AI

結論

AI 訓練資料市場價值 95.8 億美元,且每年以 27.7% 的速度成長。這個隱形產業不僅是現代人工智慧的引擎,也是我們這個時代最大的道德與法律挑戰之一。

在下一篇文章中,我們將探討公司如何具體進入這個世界,並提供實用指南,讓您開始使用目前可用的資料集和工具開發 AI 解決方案。

對於現在想要瞭解更多資訊的人,我們已編輯了一份詳細的指南,包含實施路線圖、具體成本和完整的工具堆疊 - 訂閱電子報即可免費下載。

立即開始使用的有用連結:

技術來源:

不要等待「AI 革命」。創造它。一個月之後,當其他人還在規劃時,您可能已經有了第一個工作模型。

Fabio Lauria

執行長暨創辦人 Electe

Electe 的 CEO,我幫助中小企業做出數據驅動的決策。我撰寫關於商業世界中人工智慧的文章。

最受歡迎
註冊以獲取最新消息

在您的收件箱中接收每週新聞和見解
。不要錯過

謝謝!已收到您提交的資料!
哎呀!提交表格時出錯了。