Newsletter

法學碩士的演進:市場簡介

在主要基準上,頂尖 LLM 的差距不到 2 個百分點,技術戰以平手收場。真正的 2025 大戰在生態系統、分銷和成本上上演:DeepSeek 以 560 萬美元 vs GPT-4 的 7,800-1,900 萬美元證明了自己的競爭力。儘管 Claude 贏得 65% 的技術基準,ChatGPT 仍在品牌上佔有主導地位 (76% 的知名度)。對公司而言,致勝策略不是選擇「最好的模式」,而是針對不同的使用個案,協調互補的模式。

2025 年語言模型之戰:從技術平等到生態系統之戰

大型語言模型的發展在 2025 年到了一個關鍵的轉折點:競爭不再是在模型的基本能力上 - 現在在主要的基準上基本上是相同的 - 而是在生態系統、整合和部署策略上。雖然 Anthropic 的 Claude Sonnet 4.5 在特定基準上維持微弱的技術優勢,但真正的戰爭已轉移到不同的領域。

技術性抽籤:當數目相等時

基準 MMLU (大量多工作業語言理解)

  • Claude Sonnet 4.5: 88.7%.
  • GPT-4o:88.0%。
  • Gemini 2.0 Flash: 86.9%.
  • DeepSeek-V3: 87.1%。

兩者的差異微乎其微,表現最佳的公司之間相差不到 2 個百分點。根據斯坦福的《2025 年人工智能指數報告》,「語言模型核心能力的融合代表了 2024-2025 年最重要的趨勢之一,對人工智能公司的競爭策略具有深遠的影響」。

推理能力 (GPQA Diamond)

  • Claude Sonnet 4: 65.0%.
  • GPT-4o:53.6%。
  • Gemini 2.0 Pro: 59.1%。

Claude 在複雜的推理任務上仍維持顯著的優勢,但 GPT-4o 在反應速度(平均延遲時間 1.2s 對比 Claude 的 2.1s)和 Gemini 的原生多模式處理上更勝一籌。

DeepSeek 革命:中國的遊戲改變者

2025 年 1 月,DeepSeek-V3 嶄露頭角,以 560 萬美元對比 GPT-4/Gemini Ultra 的 7,800-1.91 億美元,展示了如何開發出具有競爭力的模型。Marc Andreessen 稱之為「最令人驚嘆的突破之一,而作為開放原始碼,更是給世界的一份深厚禮物」。

DeepSeek-V3 規格:

  • 6,710 億個總參數(透過 Mixture-of-Experts 有 370 億個有效參數)
  • 訓練成本:557.6萬美元
  • 效能:在某些數學基準上優於 GPT-4o
  • 架構:多頭潛在注意力 (MLA) + DeepSeekMoE

影響:Nvidia 股價在公佈後單一交易時段下跌 17%,市場重估模型開發的進入門檻。

公眾觀感與技術現實

ChatGPT 在品牌知名度上維持無可挑戰的優勢:皮尤研究中心 (Pew Research Center) 的研究 (2025 年 2 月) 顯示,76% 的美國人只會將「會話式 AI」與 ChatGPT 聯繫起來,而只有 12% 的人知道 Claude,8% 的人會主動使用 Gemini。

悖論:Claude Sonnet 4 在 65% 的技術基準上勝過 GPT-4o,但消費者市場佔有率僅為 8%,ChatGPT 則為 71%(Similarweb 資料,2025 年 3 月)。

Google 以大量整合來回應:Gemini 2.0 原生於 Search、Gmail、Docs、Drive-策略生態系統與獨立產品。21 億 Google Workspace 使用者代表即時分銷,無需取得客戶。

電腦使用與代理:下一個領域

Claude 電腦使用 (2024 年 10 月測試版,2025 年第一季量產)

  • 功能:直接滑鼠/鍵盤控制、瀏覽器導航、應用程式互動
  • 採用率:12% 企業用戶端 人類在生產中使用電腦
  • 限制:複雜的多步驟任務仍有 14% 的失敗率

GPT-4o 與願景和行動

  • Zapier 整合:6000 多個可控制的應用程式
  • 自訂 GPT:已發佈 3 百萬個,目前使用中的有 800K 個
  • 每個創作者 GPT 的收入分享:1,000 萬美元於 2024 年第 4 季分發

雙子星深度研究(2025 年 1 月)

  • 具有基準的自主多源研究
  • 從單一提示產生完整報告
  • 平均時間:每份 5000 字以上的報告 8-12 分鐘

Gartner 預測到 2025 年底,將有 33% 的知識工作者使用自主式 AI 代理,而現在只有 5%。

關於安全的哲學分歧

OpenAI:「透過限制達到安全」的方法

  • 拒絕 8.7% 的提示消費者 (OpenAI 內部洩漏資料)
  • 嚴格的內容政策導致 23% 的開發人員轉向其他替代方案
  • 持續紅色團隊的公共準備架構

人類:「憲法 AI

  • 根據明確的道德原則訓練的模型
  • 選擇性拒絕:3.1% 提示(更允許的 OpenAI)
  • 透明的決策:解釋拒絕請求的原因

Google:「最大的安全,最小的爭議」。

  • 更嚴格的市場篩選:11.2% 的提示受阻
  • 2024年2月雙子座圖像失敗(偏差過度修正)引導極度謹慎
  • 企業焦點可降低風險容忍度

Meta Llama 3.1:零內建篩選器、執行者對立理念的責任。

垂直專業化:真正的差異化優勢

醫療保健:

  • Med-PaLM 2 (Google):MedQA 85.4% (對比 77% 最佳人類醫師)
  • Epic 系統中的 Claude:已被 305 家美國醫院採用,用於臨床決策支援

合法:

  • Harvey AI (GPT-4 客製化):102 家前 100 大律師事務所,1 億美元 ARR
  • CoCounsel (Thomson Reuters + Claude):98% 準確度的法律研究

財務:

  • Bloomberg GPT:訓練 363B 專屬金融代幣
  • Goldman Sachs Marcus AI (GPT-4 base):批核貸款速度加快 40

垂直化的付款意願是一般模式的 3.5 倍(麥肯錫調查,500 位企業買家)。

Llama 3.1:Meta 的開放原始碼策略

405B 參數,在許多基準上與 GPT-4o 具競爭力,完全開放重量。Meta 策略:基礎架構層商品化,以產品層競爭(Ray-Ban Meta 眼鏡、WhatsApp AI)。

Adoption Llama 3.1:

  • 首月下載量超過 350K
  • 50 多家新創公司在 Llama 上建立 AI 垂直市場
  • 自我管理的託管成本:12K 美元/月 vs 50K 美元以上的 API 成本同等使用量的封閉模式

反其道而行:Meta 在 Reality Labs 上損失數十億美元,但為了保護廣告核心業務,卻在開放式 AI 上大量投資。

Context Windows:數百萬代幣的競賽

  • Claude Sonnet 4.5: 200K 代幣
  • Gemini 2.0 Pro:2M 代幣(市面上最長的代幣)
  • GPT-4 Turbo:128K 代幣

Gemini 2M 上下文可分析整個程式碼庫、10 多小時的視訊、數千頁的文件 - 使用個案對企業來說是革命性的。Google Cloud 報告指出,有 43% 的企業 POC 使用的上下文 >500K tokens。

適應性與客製化

Claude 項目與風格:

  • 自訂持續交叉對話指示
  • 風格預設:正式、簡潔、解釋
  • 知識庫上傳(最多 5GB 文件)

GPT 商店與自訂 GPT:

  • 已發佈 3M GPT,每月使用量達 800K
  • 最高創作者每月可賺 63K 美元 (收入分成)
  • 71% 的企業在內部使用 ≥1 個自訂 GPT

Gemini 延伸:

  • 本機整合 Gmail、行事曆、Drive、地圖
  • 工作區上下文:讀取電子郵件+行事曆,主動提出建議
  • 2024 年第四季執行 1.2B 工作區行動

關鍵:「單一提示」改為「具備跨會話記憶與情境的持久性助理」。

2025 年第一季發展與未來軌跡

趨勢 1:Mixture-of-Experts Dominance所有頂尖的 2025 模型都使用 MoE(每次查詢啟動子集參數):

  • 推理成本降低 40-60%。
  • 更佳的延遲時間,同時維持品質
  • DeepSeek、GPT-4、Gemini Ultra 皆以 MoE 為基礎

趨勢 2:多模態原生多模態Gemini2.0 原生多模態 (非獨立的黏合模組):

  • 同時理解文字+圖片+聲音+視訊
  • 跨模式推理:「比較建築風格的建築照片與歷史時期的文字描述」。

趨勢 3:測試時間運算 (推理模型)OpenAI o1、DeepSeek-R1:將更多處理時間用於複雜推理:

  • o1: 每個複雜的數學問題 30-60s vs. 2s GPT-4o
  • 精確度 AIME 2024: 83.3% vs 13.4% GPT-4o
  • 明確的延遲/精確度權衡

趨勢 4:Agentic WorkflowsModelContext Protocol (MCP) Anthropic,2024 年 11 月:

  • 人工智能代理與工具/資料庫互動的開放標準
  • 前 3 個月有 50+ 個領養夥伴
  • 允許代理建立持久的交叉互動「記憶

成本與定價大戰

1M 代幣的 API 定價 (輸入):

  • GPT-4o: $2.50
  • Claude Sonnet 4: $3.00
  • Gemini 2.0 Flash: $0.075 (便宜 33 倍)
  • DeepSeek-V3: $0.27 (開放原始碼,託管費用)

Gemini Flash 個案研究:從 GPT-4o 轉換過來的新創公司 AI 總結降低了 94% 的成本-相同的品質、相若的延遲。

商品化加速:2023-2024 年推理成本年增 70%(Epoch AI 資料)。

對公司的策略性影響

決策架構:選擇哪個模型?

情境 1: 企業安全關鍵→Claude Sonnet 4

  • 錯誤導致數百萬人損失的醫療保健、法律、財務
  • 憲法 AI 可降低責任風險
  • 以風險減緩作為溢價定價的理由

方案 2:高容量、成本敏感型→Gemini Flash 或 DeepSeek

  • 客戶服務聊天機器人、內容修改、分類
  • 效能「夠好」,體積 10 倍至 100 倍
  • 主要差異化成本

方案 3:生態系統鎖定→Google Workspace 的 Gemini、Microsoft 的 GPT

  • 已投資於生態系統
  • 原生整合 > 優異的邊際效能
  • 現有平台的員工培訓成本

情況 4:自訂/控制→Llama 3.1 或 DeepSeek 開啟

  • 特定的合規要求(資料留存、稽核)
  • 針對專屬資料進行大量微調
  • 經濟實惠的批量自助託管

結論:從技術戰到平台戰

2025 年的 LLM 競爭不再是「哪個模式的理由最充分」,而是「哪個生態系統能獲得最大價值」。OpenAI 主導消費者品牌,Google 利用十億用戶分銷,Anthropic 贏得具有安全意識的企業,Meta 將基礎設施商品化。

預測 2026-2027 年:

  • 核心效能進一步收斂 (~90% MMLU all top-5)
  • 差異化:速度、成本、整合、垂直專業化
  • 多階段自主代理成為主流 (33% 的知識工作者)
  • 開放原始碼縮窄品質差距,維持成本/客製化優勢

最後贏家?可能不是單一玩家,而是服務於不同使用群組的互補生態系統。就像智慧型手機作業系統 (iOS + Android 並存),不是「贏家通吃」,而是「贏家分割」。

對於企業:多模型策略成為標準-GPT 適用於一般任務,Claude 適用於高風險推理,Gemini Flash 適用於大量任務,Llama 適用於專屬的客製調整。

2025 年不是「最佳模式」之年,而是互補模式之間智慧型協調之年。

資料來源:

  • 斯坦福人工智能指數報告 2025
  • 人類模型卡 Claude Sonnet 4.5
  • OpenAI GPT-4o 技術報告
  • Google DeepMind Gemini 2.0 系統卡
  • DeepSeek-V3 技術論文 (arXiv)
  • Epoch AI - 機器學習的趨勢
  • Gartner 2025 年人工智慧與分析高峰會
  • 麥肯錫 2025 年人工智能狀況報告
  • 皮尤研究中心 AI 採用調查
  • Similarweb 平台智慧

促進業務成長的資源