探索為什麼所有 AI 系統在描述其限制時都會「行動」,以及這如何徹底改變公司治理的方法
簡介:改變 AI 治理的發現
2025 年,人工智能不再是新奇事物,而是日常運作的現實。超過 90% 的財富 500 強企業在工作場所使用 OpenAIAI:2025 年報告 | 麥肯錫,然而一項革命性的科學發現正在挑戰我們自以為對 AI 治理的一切認識。
由「SummerSchool2025PerformativeTransparency」專案所進行的研究顯示了一個令人驚訝的現象:所有的人工智慧系統在描述其能力與限制時,無一例外都會「出現問題」。我們談論的不是故障或程式錯誤,而是一種固有的特性,徹底改變了我們思考 AI 治理的方式。
什麼是 AI 中的「劇場表演
科學定義
透過有系統地分析九個 AI 助手,比較他們自我報告的修改政策與平台的官方文件,發現平均的透明度差距為 1.644(以 0-3 為標準)SummerSchool2025PerformativeTransparency。簡單來說,所有的 AI 模型都有系統地多報他們的限制,而非官方政策中的實際記錄。
最令人震驚的事實
這種戲劇性顯示出商業 (1.634) 與本地 (1.657) 之間幾乎沒有差異 - 0.023 的微小差異挑戰了有關企業與開放原始碼 AI 治理的普遍假設SummerSchool2025PerformativeTransparency。
轉化為實務:無論您使用的是 OpenAI 的 ChatGPT、Anthropic 的 Claude,或是自行託管的開放原始碼模型,都沒有關係。在描述它們的限制時,它們的「行為」都是一樣的。
混凝土對企業的意義
1.AI 治理政策部分是虛幻的
如果您的公司已經根據 AI 系統的自我描述實施 AI 治理政策,那麼您是建立在戲劇性的基礎上。75% 的受訪者自豪地表示已制定 AI 使用政策,但只有 59% 的受訪者設有專屬的治理角色,只有 54% 的受訪者維護事件回應劇本,僅有 45% 的受訪者針對 AI 專案進行風險評估AI 治理缺口:為何 91% 的小型公司在 2025 年的資料安全問題上玩俄羅斯輪盤?
2.商業與開放源碼治理是錯誤的區分
許多公司選擇 AI 解決方案時,相信商業模式「更安全」或開放源碼模式「更透明」。令人驚訝的發現是,Gemma 3 (本地) 顯示出最高的戲劇性 (2.18),而 Meta AI (商業) 則顯示出最低的戲劇性 (0.91),這顛倒了對部署類型SummerSchool2025PerformativeTransparency 影響的預期。
實際意義:您不能將人工智慧採購決策建立在某一類型天生就比另一類型「可治理」的假設之上。
3.監測系統必須改變方法
如果 AI 系統系統性地過度報告其限制,則基於自我評估的傳統監控系統在結構上是不夠的。
2025 年有效的混凝土解決方案
方法 1:多源治理
領先的公司不再仰賴 AI 系統的自我描述,而是正在執行:
- AI 系統的獨立外部稽核
- 以系統化的行為測試取代自我報告的評估
- 即時效能監控與系統宣告
方法 2:「批判劇場」模式
我們建議授權公民社會組織擔任「劇場評論員」,有系統地監督法規與私營部門的績效研究生座談會系列:表演性數位合規。
商業應用:建立內部「行為稽核」小組,有系統地測試 AI 所說的與實際所做的之間的差距。
方法 3:成果治理
聯邦治理模式可讓團隊自主開發新的 AI 工具,同時維持集中的風險控制。領導者可直接監督高風險或高曝光率的問題,例如設定政策與流程,以監控模型與輸出的公平性、安全性與可解釋性AI in the workplace: A report for 2025 | 麥肯錫。
實用的執行架構
第 1 階段:劇場評估(1-2 週)
- 記錄您 AI 系統的所有自我描述
- 有系統地測試這些行為是否與現實相符
- 量化每個系統的戲劇性差距
第 2 階段:重新設計控制 (1-2 個月)
- 以行為測試取代以自我報告為基礎的控制方法
- 實施獨立的持續監測系統
- 成立專門從事 AI 行為稽核的內部團隊
第 3 階段:適應性治理(持續進行中)
- 持續監控申報與實際之間的差距
- 根據實際而非宣稱的行為更新政策
- 為合規和外部審計提供所有文件
可衡量的結果
成功指標
已採用此方法的公司表示
- 因對系統行為的錯誤預期而導致的AI 事件減少 34
- 風險評估的準確性提高 28
- 快速擴展 AI 計畫的能力提升 23
147 家《財富》500 強企業透過考慮到這些方面的 AI 治理框架實現了 340% 的 ROIAI 治理框架《財富》500 強實施指南:從風險到收入領導 - Axis Intelligence。
實施挑戰
組織阻力
儘管治理失敗,技術領導者仍有意識地優先採用AI,而規模較小的組織則缺乏法規意識2025 AI 治理調查揭示了 AI 宏圖大計與營運準備之間的重大差距。
解決方案:先從非關鍵系統的試驗專案開始,以證明方法的價值。
成本與複雜性
實施行為測試系統看似昂貴,但在 2025 年,企業領導者將無法再以不一致的方式或在孤立的業務領域解決 AI 治理問題2025 AI 商業預測:PwC。
投資報酬率 (ROI):實施成本很快就會因事故的減少和 AI 系統效能的提升而抵銷。
AI 治理的未來
新興趨勢
企業董事會將要求 AI 的投資報酬率 (ROI)。ROI 將成為2025 年的關鍵字10 項 2025 年 AI 治理預測 - 作者:Oliver Patel。
展現具體投資報酬率的壓力,將使我們無法繼續採用純粹戲劇化的治理方式。
法規影響
GPAI 模型的治理規則和義務自 2025 年 8 月 2 日起開始適用AI Act | 塑造歐洲的數位未來。監管機構開始要求循證治理,而非自我報告。
營運結論
AI 中表演劇場的發現並非學術上的好奇心,而是會改變營運上的遊戲規則。那些繼續將人工智能管理建立在系統自我描述基礎上的公司正在流沙上築路。
今天要採取的具體行動:
- 立即審核您 AI 系統中宣稱與實際之間的差距
- 逐步實施行為測試系統
- 就這些新的治理方法訓練團隊
- 有系統地測量結果,以證明 ROI
歸根結柢,問題不在於 AI 是否可以透明,而是透明本身(如表演、測量與詮釋)能否擺脫其戲劇本質。
務實的答案是:如果劇場是不可避免的,至少讓我們讓劇場變得有用,並且以真實的資料為基礎。
常見問題:有關在 AI 中執行劇情的常見問題
1.IA 中的「表演劇場性」到底是什麼意思?
表演性劇場是一種現象,所有的 AI 系統都有系統地多報其限制與局限,而非官方政策中的實際記錄。透過分析 9 位 AISummerSchool2025PerformativeTransparency 助理,發現 0-3 級的平均透明度差距為 1.644。
2.這種現象只影響某些類型的人工智慧,還是具有普遍性?
它是完全通用的。每個經過測試的模式,無論是商業或地方、大型或小型、美國或中國,都參與了自稱的戲劇夏日學校 2025PerformativeTransparency。沒有已知的例外。
3.這是否意味著我不能信任公司的 AI 系統?
這並不表示您不能信任自我描述。您必須執行獨立的測試和監控系統,以驗證真實與聲明的行為。
4.我該如何在公司裡實施這種新的治理方式?
首先對您目前的系統進行劇場差距評估,然後基於行為測試而非自我報告逐步實施控制。文中描述的實用架構提供了具體的步驟。
5.實施成本是多少?
行為測試系統的前期成本通常會被人工智能事件減少 34% 和風險評估準確性提高 28% 所抵銷。採用這些方法的《財富》500 大企業報告的投資報酬率為 340%AI 治理架構《財富》500 大企業實施指南:從風險到收入領導 - Axis Intelligence。
6.這也適用於 ChatGPT 等生成式 AI 嗎?
是的,研究明確包含生成式 AI 模型。商業模型與本地模型之間的差異可忽略不计 (0.023),因此此現象統一適用於所有SummerSchool2025PerformativeTransparency 類別。
7.監管機構是否意識到這種現象?
監管機構開始要求實證治理。隨著 2025 年 8 月 2 日起生效的歐盟 GPAI 模型新規定AI Act | 塑造歐洲的數位未來,獨立測試方法很可能成為標準。
8.我該如何說服管理階層相信這個問題的重要性?
使用硬性數據:91% 的小型公司缺乏對其人工智能系統的充分監控AI Governance Gap: Why 91% of Small Companies Are Playing Russian Roulette with Data Security 2025 年,95% 的公司的生成式人工智能試點計劃失敗 麻省理工報告:95% 的公司的生成式人工智能試點計劃失敗 | Fortune。不作為的代價遠高於執行的代價。
9.是否有現成的工具來實施此治理?
是的,專門從事行為測試和 AI 系統獨立審核的平台正在興起。重要的是要選擇不是基於自我報告而是基於系統測試的解決方案。
10.隨著人工智能的演進,這種現象會變得更嚴重嗎?
大概如此。隨著自主式 AI 代理的到來,79% 的組織正在採用AI 代理,10 AI 代理統計 2025 年末,因此根據行為測試而非自我描述來實施治理變得更加關鍵。
主要來源:


