Newsletter

創意悖論:人工智慧、版權與人類的未來

"我不覺得受寵若驚。我覺得我多年來建立的東西被偷走了' - Greg Rutkowski,他的名字出現在 120 萬個 Stable Diffusion 提示中。吉卜力風格」揭示了真正的差異:梵谷瞭解日本美學原則,AI 則擷取像素之間的統計關聯。斯坦福證明,模型在 3% 的時間內會重新產生幾乎相同的圖像。這不是靈感,而是記憶。超過 25 萬名藝術家採用 Glaze 和 Nightshade 來保護自己。

人類與人工創意:差異的真正所在(以及為什麼吉卜力風格能教導我們一些東西)

2024-2025 年,有關人工智慧與著作權的爭論急遽加劇。這些不再是理論上的討論:《紐約時報》控告 OpenAI 侵犯版權(2023 年 12 月)、Getty Images 控告 Stability AI,以及數以千計的藝術家提出集體訴訟。AI 公司回應說,他們的系統就像人類一樣「學習」,但事實真的如此嗎?

人類的創造力總是透過聯繫而發展:莎士比亞的靈感來自歷史記事和民間故事,梵高研究日本版畫,披頭四則從演奏美國搖滾樂開始。藝術家總是重新詮釋之前的作品。科技公司說,人工智慧也是一樣。但「吉卜力風格」的案例揭示了這種說法有多簡單。

吉卜力案例:當風格變成爭議

在 Midjourney 或 DALL-E 中輸入「Ghibli 風格」,您會看到與宮崎駿大作極為相似的畫面:粉嫩的色彩、蓬鬆的雲朵、如夢似幻的風景、大眼睛的人物。這在技術上令人印象深刻。這也是一個深刻的問題。

吉卜力工作室花了數十載才發展出這種獨特的美學:精準的色調選擇、傳統的動畫技術,以及植根於日本文化與宮崎駿個人願景的藝術哲學。當人工智能模型在幾秒鐘內複製出這種「風格」時,它是否真的像宮崎駿從迪士尼動畫和日本漫畫中學習到的「學習」?還是只是在未經允許的情況下,重新組合從數以千計的吉卜力畫面中擷取的視覺模式?

這並非哲學上的差異,而是法律與經濟上的差異。根據發表在 arXiv (Carlini 等人,2023) 上的一項史丹福分析,擴散模型 (例如 Stable Diffusion) 在特定提示下,約有 3% 的情況下可以從訓練集中重新產生幾乎相同的圖像。這不是「靈感」,而是儲存與重現。

波蘭數位藝術家 Greg Rutkowski 發現,他的名字出現在 Stable Diffusion 的 120 萬條提示中,無意間成為被要求最多的「風格」之一,卻從未給予同意或收取報酬。正如他告訴 MIT Technology Review 所說:「我不覺得受寵若驚。我覺得我多年來建立的東西被偷走了。

教育爭議:2024-2025 年的數字

人工智能訓練的規模已經達到前所未有的程度。LAION-5B 是使用最廣泛的圖像模型資料集之一,包含從網際網路收集的 58.5 億個圖像-文字對,其中包括受版權保護的作品。GPT-4 是在網際網路的大量資料上進行訓練,包括付費文章、書籍和專屬軟體程式碼。

正在進行的重大法律行動:

  • 紐約時報》訴 OpenAI/Microsoft(2023 年 12 月):數十億美元的損害賠償要求,指控對數十年來受保護的文章進行 GPT 訓練
  • Getty Images vs Stability AI(2023 年 2 月):被指控無照使用 1200 多萬張 Getty 圖片
  • 藝術家集體訴訟 vs Stability AI/Midjourney/DeviantArt(2023 年 1 月):數千名藝術家控告系統性著作權侵權
  • Universal Music 訴 Suno 和 Udio(2024 年 6 月):音樂世代平台被控訓練受保護的目錄

AI 公司引用美國法律中的「合理使用」為這種做法辯護:他們辯稱訓練是「轉換性」的,並沒有取代原本的市場。但多家法院正在挑戰這種解釋。

法官 Katherine Forrest 在 Getty v. Stability AI 案中,於 2024 年 1 月駁回撤銷申請,允許案件繼續進行:「關於訓練 AI 模型是否構成合理使用的問題相當複雜,需要徹底審查事實。翻譯:AI 公司不能簡單地援引合理使用就完事。

貿易協定:市場解決方案浮現

面對法律壓力,AI 公司開始談判授權。OpenAI 已與下列公司簽訂協議:

  • 美聯社(2023 年 7 月):以特許權換取新聞檔案的存取權
  • Axel Springer(2023 年 12 月):同意使用 Politico、Business Insider 的內容
  • 金融時報(2024 年 4 月):訓練內容授權
  • 新聞集團(2024 年 5 月):2.5 億美元的交易,為期 5 年,取得《華爾街日報》、《巴倫周刊》、《紐約郵報》的權利

Google 與 Reddit、Stack Overflow 及多家出版商簽訂類似的協議。Anthropic 已與出版商洽談書籍使用事宜。

但這些協議只涵蓋有談判能力的大型出版商。數百萬的個人創作人──藝術家、攝影師、自由撰稿人──仍未因已完成的訓練中使用的作品而獲得報酬。

人類學習與機器學習:真正的差異 (Beyond Statistics)

AI 像人類一樣學習」的說法在技術上有誤導性。讓我們來看看根本的差異:

規模與速度:人類藝術家一生中可能會研究數百或數千個作品。GPT-4 已經在數以萬億計的文字上接受過訓練。Stable Diffusion 針對數十億張圖像。其規模是無可比擬的,超越了任何「靈感」的合理定義。

語義理解:當凡高研究日本版畫時,他並沒有機械式地複製視覺模式--他理解了基本的美學原則(負空間的使用、不對稱的構圖、對自然的強調),並通過他的歐洲後印象派視野重新詮釋了這些原則。他的作品是有意識的文化綜合。

人工智慧模型並不是人類意義上的「理解」。正如聖塔菲研究所教授 Melanie Mitchell 在她的《人工智能:思考人類指南》(Artificial Intelligence: A Guide for Thinking Humans)中所說:「深度學習系統擅長模式識別,但缺乏因果理解、抽象推理或世界的心智模型。Stable Diffusion 不會「理解」Ghibli 的與眾不同之處 - 只會在數百萬個貼上「Ghibli 風格」標籤的像素之間抽取統計關聯。

創作意圖:人類藝術家會基於個人願景、想要傳達的訊息、想要喚起的情緒,做出有意識的創作選擇。宮崎駿將環保主題、和平主義、女權主義融入他的電影--有意識的道德與藝術選擇。

AI 根據統計概率產生:「給出提示 X 和訓練集 Y,哪個像素配置最有可能?沒有意圖、沒有訊息、沒有願景。正如 Ted Chiang 在《紐約客》雜誌中所寫的:「ChatGPT 是一種模糊的網路 jpeg」--一種有損的壓縮,恰恰失去了使原始內容變得有價值的特質。

轉型 vs. 重組:Pablo Picasso 學習非洲面具,卻創造了立體主義 - 一個全新的藝術運動,重塑了繪畫的空間表現。這種轉變是徹底而原始的。

生成式 AI 模型透過潛在空間中的插補運作:它們將訓練集的元素重新組合成新的配置,但仍受限於其所訓練的資料的統計分布。它們無法發明違反已學習統計規律的真正新美學。正如麻省理工學院的研究(Shumailov 等人,2023 年)所證明的,在先前的 AI 輸出上反覆訓練的模型會逐漸退化 - 這種現象稱為「模型崩潰」。

原創性」AI 的悖論

這就是核心的悖論:AI 可以產生看似原創的輸出(人類從未見過吉卜力風格的特定圖像),但在統計學上卻是衍生的(它們是現有模式的內插)。這是一種表面上的原創,卻沒有根本性的創新。

這具有深遠的意義。正如哲學家 John Searle 在其著名的「Chinese Room argument」(中式房間論點)中所說:模擬認知過程不等同於擁有認知過程。AI 可以模擬創造力,但卻不具備人類意義上的創造力。

新興技術與法規解決方案

面對爭議,各種解決方案正在開發中:

藝術家的保護工具:

  • Glaze(芝加哥大學): 將不易察覺的擾動應用於影像的軟體,「騙倒」嘗試學習風格的 AI 模型。
  • Nightshade(同一團隊):攻擊性版本,可「毒害」訓練資料,破壞未經允許使用資料的模型。
  • 第一年就有超過 250,000 位藝術家採用這些工具

選擇退出登錄器:

  • Have I Been Trained(Spawning AI):可讓藝術家檢查其作品是否在 LAION 及其他資料集中的資料庫,並設有退出機制。
  • 一些較新的機型尊重這些選擇退出(Stability AI 已宣布部分符合規定)

補償架構:

  • Spawning AI Licence:當作品被用於訓練時向藝術家提供補償的微型許可證系統
  • 仍處於實驗階段,尚未廣泛採用

政府法規:

歐盟 AI 法案(2024 年 8 月生效)要求生成式 AI 模型的提供者公布所使用的受版權保護訓練資料的詳細摘要。這是第一個強制透明度的監管嘗試。

田納西州 ELVIS 法案(2024 年 3 月)特別保護聲音和肖像表演者免於在未經授權的情況下被使用,在人工智能先行的美國各州,針對深度語音和視覺偽造進行了具體立法。

向美國國會提出的提案包括要求明確選擇加入受版權保護的作品(而非選擇退出),以及建立訓練資料集的公共註冊處。

創意的未來:混合還是替代?

兩種對未來的想像互相對峙:

樂觀的看法 (AI 公司):AI 是放大人類創造力的工具,就像 Photoshop 或音樂合成器。藝術家將利用 AI 加速工作流程、探索變化、克服創作障礙。人類引導視覺、AI 執行技術部分的混合藝術形式將會出現。

具體的例子已經存在:電影「The Frost」(2023)使用 AI 來產生背景與紋理,並由人類藝術家指導藝術方向。音樂家使用 Suno 和 Udio 來產生伴奏音軌,以便即興創作。作家使用 GPT 作為「橡皮鴨」來討論敘事構想。

悲觀的看法(許多創作者):AI 將使創意商品化,侵蝕創意工作的經濟價值,直到只有擁有特殊技能的精英才能生存。平均創意」將會被廉價的產生器取代,摧毀創意中產階級,就像 19 世紀工業自動化淘汰工匠一樣。

初步證據支持這項疑慮:在 Fiverr 等自由職業平台上,2023 年對插畫師與文案撰稿人的請求減少了 21%(Fiverr 2023 年第四季資料),而「AI 藝術創作」的請求則呈爆炸性成長。Greg Rutkowski 自從他的風格在 Stable Diffusion 上流行後,直接委託的工作減少了 40%。

真相可能介於兩者之間:某些形式的創意工作將會自動化(一般的圖庫插圖、基本的文案行銷),而高度原創、概念性、文化根基的創意則仍屬於人類的領域。

最後的思考:完美模仿時代的真實性

人類與 AI 內容之間的區別將變得越來越困難。時至今日,在沒有水印或公開的情況下,通常無法區分 GPT-4 文字與人類文字,或 Midjourney 影像與照片。當 Sora(OpenAI 視訊產生器)公開時,這個區別就會延伸到視訊。

這引起了關於真實性的深刻問題。如果 AI 產生的吉卜力風格影像能喚起與原作相同的情感,它是否具有相同的價值?哲學家 Walter Benjamin 在其《技術複製時代的藝術作品》(The Work of Art in the Age of its Technical Reproducibility)(1935)一文中指出,機械複製會侵蝕原作的「光環」--其時空獨特性與真實性。

生成式人工智能將這個論點推向極端:它並非複製現有的作品,而是產生無窮無盡的變體,模擬原作而非原作。這是 Baudrillardian simulacrum - 沒有原作的複製品。

然而,有意識的創作行為有其不可或缺的人性化特質:藝術家在選擇每一筆觸時,都知道他想要傳達什麼;作家精心創作每一個句子,以喚起特定的情感;作曲家用心建立張力和決心。AI 可以模擬結果,但無法模擬過程,而創意的真正價值或許就在於過程。

吉卜力工作室在一份聲明(2023 年 11 月)中寫道:「我們電影的靈魂不在於可以複製的視覺風格,而在於我們一格一格為我們想說的故事所做的創意決定。這是無法自動化的'。

藝術的價值最終來自於它能夠與人類的經驗深入連結,讓我們感受到被理解、挑戰與轉變。人工智慧能否達到這一點,仍是一個有待商榷的問題。但只要藝術是由人類為人類創造、談及人類的狀況,它就能保留任何演算法都無法複製的東西:將生活經驗的真實性轉化為美學形式。

資料來源:

  • Carlini, Nicholas 等人 - 「從擴散模型中萃取訓練資料」,arXiv:2301.13188 (2023)
  • Mitchell, Melanie - 「人工智慧:思考人類指南」 (2019)
  • Chiang, Ted -「ChatGPT 是網路模糊的 JPEG」,《紐約客》(2023 年 2 月)
  • Shumailov, Ilia 等人 - 'The Curse of Recursion: Training on Generated Data Makes Models Forget', arXiv:2305.17493 (2023)
  • 麻省理工科技評論》--「這位藝術家正在主宰人工智能生成的藝術。 他對此並不滿意」(2022 年 9 月)
  • 歐盟 AI 法 - 法規 (EU) 2024/1689
  • Benjamin, Walter -「藝術作品的技術再現性時代」(1935)
  • 公共記錄訴訟:NYT vs OpenAI、Getty vs Stability AI
  • Fiverr 2023 年第四季收益報告

促進業務成長的資源