讓 ChatGPT、穩定擴散和其他所有現代人工智能系統成為可能的隱形產業
當您使用 ChatGPT 撰寫電子郵件或使用 Midjourney 產生圖片時,您很少會想到人工智慧的「魔力」背後是什麼。然而,在每一個智慧回應和每一個產生的圖像背後,都隱藏著一個很少人談論的數十億美元的產業:AI 訓練資料市場。
根據MarketsandMarkets的資料,這個領域到 2029 年將達到95.8億美元,年成長率為 27.7%,是現代人工智慧的真正引擎。但這個隱藏的事業究竟是如何運作的呢?
在 AI 訓練資料的世界裡,有幾家公司佔了主導地位,但大多數人卻從未聽過這些公司:
Scale AI 是業界最大的公司,擁有28% 的市場佔有率,最近在 Meta 投資後,估值達到290 億美元。他們的企業客戶每年支付10 萬到幾百萬美元不等的費用來購買高品質的資料。
總部位於澳洲的Appen 擁有一個由170 個國家超過 100 萬名專家組成的全球網路,這些專家會為 AI 人工智慧手動標籤與整理資料。Airbnb、John Deere 和 Procter & Gamble等公司都使用他們的服務來「教導」自己的 AI 模型。
與此同時,還有一個由LAION(大型人工智慧開放網路) 等組織領導的開放原始碼生態系統,LAION 是德國的非營利組織,創造了LAION-5B,這個包含58.5 億張圖片與文字對的資料集,讓 Stable Diffusion 成為可能。
Common Crawl每月會釋放TB 級的原始網頁資料,用於訓練 GPT-3、LLaMA 及其他許多語言模型。
大眾所不知道的是,訓練一個現代 AI 模型的成本已變得多麼昂貴。根據Epoch AI 的資料,過去八年來,成本每年增加2-3 倍。
最令人驚訝的數字?根據AltIndex.com 的資料,自 2020 年以來,AI 訓練成本已增加 4300%。
其中最具爭議性的問題是關於版權資料的使用。2025 年 2 月,特拉華州法院在Thomson Reuters v. ROSS Intelligence一案中裁定,AI 訓練可構成直接的著作權侵權,駁回「合理使用」的抗辯理由。
美國版權局(US Copyright Office)發表了一份 108 頁的報告,結論是某些用途不能被辯護為合理使用,為人工智慧公司潛在的龐大授權費用鋪路。
麻省理工科技評論》的調查顯示,DataComp CommonPool 是使用最廣泛的資料集之一,其中包含數百萬張護照、信用卡和出生證明的影像。過去兩年的下載量超過 200 萬次,這引起了巨大的隱私權問題。
專家預測,到2028 年,大部分人為產生的線上公共文字都將被使用。這種「資料峰值」情境正驅使企業朝向創新的解決方案邁進:
加州 AI 透明化法案將要求公司揭露用於訓練的資料集,而歐盟也正在 AI 法案中實施類似要求。
對於想要開發 AI 解決方案的公司而言,了解這個生態系統至關重要:
AI 訓練資料市場價值 95.8 億美元,且每年以 27.7% 的速度成長。這個隱形產業不僅是現代人工智慧的引擎,也是我們這個時代最大的道德與法律挑戰之一。
在下一篇文章中,我們將探討公司如何具體進入這個世界,並提供實用指南,讓您開始使用目前可用的資料集和工具開發 AI 解決方案。
對於現在想要瞭解更多資訊的人,我們已編輯了一份詳細的指南,包含實施路線圖、具體成本和完整的工具堆疊 - 訂閱newsletter即可免費下載。
立即開始使用的有用連結:
技術來源:
不要等待「AI 革命」。創造它。一個月之後,當其他人還在規劃時,您可能已經有了第一個工作模型。