法學碩士的演進：市場簡介

Newsletter

法學碩士的演進：市場簡介

在主要基準上，頂尖 LLM 的差距不到 2 個百分點，技術戰以平手收場。真正的 2025 大戰在生態系統、分銷和成本上上演：DeepSeek 以 560 萬美元 vs GPT-4 的 7,800-1,900 萬美元證明了自己的競爭力。儘管 Claude 贏得 65% 的技術基準，ChatGPT 仍在品牌上佔有主導地位 (76% 的知名度)。對公司而言，致勝策略不是選擇「最好的模式」，而是針對不同的使用個案，協調互補的模式。

Fabio Lauria

ELECTE執行長暨創辦人

使用 AI 總結本文

2025 年語言模型之戰：從技術平等到生態系統之戰

大型語言模型的發展在 2025 年到了一個關鍵的轉折點：競爭不再是在模型的基本能力上 - 現在在主要的基準上基本上是相同的 - 而是在生態系統、整合和部署策略上。雖然 Anthropic 的 Claude Sonnet 4.5 在特定基準上維持微弱的技術優勢，但真正的戰爭已轉移到不同的領域。

技術性抽籤：當數目相等時

基準 MMLU (大量多工作業語言理解)

Claude Sonnet 4.5: 88.7%.
GPT-4o：88.0%。
Gemini 2.0 Flash: 86.9%.
DeepSeek-V3: 87.1%。

兩者的差異微乎其微，表現最佳的公司之間相差不到 2 個百分點。根據斯坦福的《2025 年人工智能指數報告》，「語言模型核心能力的融合代表了 2024-2025 年最重要的趨勢之一，對人工智能公司的競爭策略具有深遠的影響」。

推理能力 (GPQA Diamond)

Claude Sonnet 4: 65.0%.
GPT-4o：53.6%。
Gemini 2.0 Pro: 59.1%。

Claude 在複雜的推理任務上仍維持顯著的優勢，但 GPT-4o 在反應速度（平均延遲時間 1.2s 對比 Claude 的 2.1s）和 Gemini 的原生多模式處理上更勝一籌。

DeepSeek 革命：中國的遊戲改變者

2025 年 1 月，DeepSeek-V3 嶄露頭角，以 560 萬美元對比 GPT-4/Gemini Ultra 的 7,800-1.91 億美元，展示了如何開發出具有競爭力的模型。Marc Andreessen 稱之為「最令人驚嘆的突破之一，而作為開放原始碼，更是給世界的一份深厚禮物」。

DeepSeek-V3 規格：

6,710 億個總參數（透過 Mixture-of-Experts 有 370 億個有效參數）
訓練成本：557.6萬美元
效能：在某些數學基準上優於 GPT-4o
架構：多頭潛在注意力 (MLA) + DeepSeekMoE

影響：Nvidia 股價在公佈後單一交易時段下跌 17%，市場重估模型開發的進入門檻。

公眾觀感與技術現實

ChatGPT 在品牌知名度上維持無可挑戰的優勢：皮尤研究中心 (Pew Research Center) 的研究 (2025 年 2 月) 顯示，76% 的美國人只會將「會話式 AI」與 ChatGPT 聯繫起來，而只有 12% 的人知道 Claude，8% 的人會主動使用 Gemini。

悖論：Claude Sonnet 4 在 65% 的技術基準上勝過 GPT-4o，但消費者市場佔有率僅為 8%，ChatGPT 則為 71%（Similarweb 資料，2025 年 3 月）。

Google 以大量整合來回應：Gemini 2.0 原生於 Search、Gmail、Docs、Drive-策略生態系統與獨立產品。21 億 Google Workspace 使用者代表即時分銷，無需取得客戶。

電腦使用與代理：下一個領域

Claude 電腦使用 (2024 年 10 月測試版，2025 年第一季量產)

功能：直接滑鼠/鍵盤控制、瀏覽器導航、應用程式互動
採用率：12% 企業用戶端人類在生產中使用電腦
限制：複雜的多步驟任務仍有 14% 的失敗率

GPT-4o 與願景和行動

Zapier 整合：6000 多個可控制的應用程式
自訂 GPT：已發佈 3 百萬個，目前使用中的有 800K 個
每個創作者 GPT 的收入分享：1,000 萬美元於 2024 年第 4 季分發

雙子星深度研究（2025 年 1 月）

具有基準的自主多源研究
從單一提示產生完整報告
平均時間：每份 5000 字以上的報告 8-12 分鐘

Gartner 預測到 2025 年底，將有 33% 的知識工作者使用自主式 AI 代理，而現在只有 5%。

關於安全的哲學分歧

OpenAI：「透過限制達到安全」的方法

拒絕 8.7% 的提示消費者 (OpenAI 內部洩漏資料)
嚴格的內容政策導致 23% 的開發人員轉向其他替代方案
持續紅色團隊的公共準備架構

人類：「憲法 AI

根據明確的道德原則訓練的模型
選擇性拒絕：3.1% 提示（更允許的 OpenAI）
透明的決策：解釋拒絕請求的原因

Google：「最大的安全，最小的爭議」。

更嚴格的市場篩選：11.2% 的提示受阻
2024年2月雙子座圖像失敗（偏差過度修正）引導極度謹慎
企業焦點可降低風險容忍度

Meta Llama 3.1：零內建篩選器、執行者對立理念的責任。

垂直專業化：真正的差異化優勢

醫療保健：

Med-PaLM 2 (Google)：MedQA 85.4% (對比 77% 最佳人類醫師)
Epic 系統中的 Claude：已被 305 家美國醫院採用，用於臨床決策支援

合法：

Harvey AI (GPT-4 客製化)：102 家前 100 大律師事務所，1 億美元 ARR
CoCounsel (Thomson Reuters + Claude)：98% 準確度的法律研究

財務：

Bloomberg GPT：訓練 363B 專屬金融代幣
Goldman Sachs Marcus AI (GPT-4 base)：批核貸款速度加快 40

垂直化的付款意願是一般模式的 3.5 倍（麥肯錫調查，500 位企業買家）。

Llama 3.1：Meta 的開放原始碼策略

405B 參數，在許多基準上與 GPT-4o 具競爭力，完全開放重量。Meta 策略：基礎架構層商品化，以產品層競爭（Ray-Ban Meta 眼鏡、WhatsApp AI）。

Adoption Llama 3.1：

首月下載量超過 350K
50 多家新創公司在 Llama 上建立 AI 垂直市場
自我管理的託管成本：12K 美元/月 vs 50K 美元以上的 API 成本同等使用量的封閉模式

反其道而行：Meta 在 Reality Labs 上損失數十億美元，但為了保護廣告核心業務，卻在開放式 AI 上大量投資。

Context Windows：數百萬代幣的競賽

Claude Sonnet 4.5: 200K 代幣
Gemini 2.0 Pro：2M 代幣（市面上最長的代幣）
GPT-4 Turbo：128K 代幣

Gemini 2M 上下文可分析整個程式碼庫、10 多小時的視訊、數千頁的文件 - 使用個案對企業來說是革命性的。Google Cloud 報告指出，有 43% 的企業 POC 使用的上下文 >500K tokens。

適應性與客製化

Claude 項目與風格：

自訂持續交叉對話指示
風格預設：正式、簡潔、解釋
知識庫上傳（最多 5GB 文件）

GPT 商店與自訂 GPT：

已發佈 3M GPT，每月使用量達 800K
最高創作者每月可賺 63K 美元 (收入分成)
71% 的企業在內部使用 ≥1 個自訂 GPT

Gemini 延伸：

本機整合 Gmail、行事曆、Drive、地圖
工作區上下文：讀取電子郵件+行事曆，主動提出建議
2024 年第四季執行 1.2B 工作區行動

關鍵：「單一提示」改為「具備跨會話記憶與情境的持久性助理」。

2025 年第一季發展與未來軌跡

趨勢 1：Mixture-of-Experts Dominance所有頂尖的 2025 模型都使用 MoE（每次查詢啟動子集參數）：

推理成本降低 40-60%。
更佳的延遲時間，同時維持品質
DeepSeek、GPT-4、Gemini Ultra 皆以 MoE 為基礎

趨勢 2：多模態原生多模態Gemini2.0 原生多模態 (非獨立的黏合模組)：

同時理解文字+圖片+聲音+視訊
跨模式推理：「比較建築風格的建築照片與歷史時期的文字描述」。

趨勢 3：測試時間運算 (推理模型)OpenAI o1、DeepSeek-R1：將更多處理時間用於複雜推理：

o1: 每個複雜的數學問題 30-60s vs. 2s GPT-4o
精確度 AIME 2024: 83.3% vs 13.4% GPT-4o
明確的延遲/精確度權衡

趨勢 4：Agentic WorkflowsModelContext Protocol (MCP) Anthropic，2024 年 11 月：

人工智能代理與工具/資料庫互動的開放標準
前 3 個月有 50+ 個領養夥伴
允許代理建立持久的交叉互動「記憶

成本與定價大戰

1M 代幣的 API 定價 (輸入)：

GPT-4o: $2.50
Claude Sonnet 4: $3.00
Gemini 2.0 Flash: $0.075 (便宜 33 倍)
DeepSeek-V3: $0.27 (開放原始碼，託管費用)

Gemini Flash 個案研究：從 GPT-4o 轉換過來的新創公司 AI 總結降低了 94% 的成本-相同的品質、相若的延遲。

商品化加速：2023-2024 年推理成本年增 70%（Epoch AI 資料）。

對公司的策略性影響

決策架構：選擇哪個模型？

情境 1：企業安全關鍵→Claude Sonnet 4

錯誤導致數百萬人損失的醫療保健、法律、財務
憲法 AI 可降低責任風險
以風險減緩作為溢價定價的理由

方案 2：高容量、成本敏感型→Gemini Flash 或 DeepSeek

客戶服務聊天機器人、內容修改、分類
效能「夠好」，體積 10 倍至 100 倍
主要差異化成本

方案 3：生態系統鎖定→Google Workspace 的 Gemini、Microsoft 的 GPT

已投資於生態系統
原生整合 > 優異的邊際效能
現有平台的員工培訓成本

情況 4：自訂/控制→Llama 3.1 或 DeepSeek 開啟

特定的合規要求（資料留存、稽核）
針對專屬資料進行大量微調
經濟實惠的批量自助託管

結論：從技術戰到平台戰

2025 年的 LLM 競爭不再是「哪個模式的理由最充分」，而是「哪個生態系統能獲得最大價值」。OpenAI 主導消費者品牌，Google 利用十億用戶分銷，Anthropic 贏得具有安全意識的企業，Meta 將基礎設施商品化。

預測 2026-2027 年：

核心效能進一步收斂 (~90% MMLU all top-5)
差異化：速度、成本、整合、垂直專業化
多階段自主代理成為主流 (33% 的知識工作者)
開放原始碼縮窄品質差距，維持成本/客製化優勢

最後贏家？可能不是單一玩家，而是服務於不同使用群組的互補生態系統。就像智慧型手機作業系統 (iOS + Android 並存)，不是「贏家通吃」，而是「贏家分割」。

對於企業：多模型策略成為標準-GPT 適用於一般任務，Claude 適用於高風險推理，Gemini Flash 適用於大量任務，Llama 適用於專屬的客製調整。

2025 年不是「最佳模式」之年，而是互補模式之間智慧型協調之年。

資料來源：

斯坦福人工智能指數報告 2025
人類模型卡 Claude Sonnet 4.5
OpenAI GPT-4o 技術報告
Google DeepMind Gemini 2.0 系統卡
DeepSeek-V3 技術論文 (arXiv)
Epoch AI - 機器學習的趨勢
Gartner 2025 年人工智慧與分析高峰會
麥肯錫 2025 年人工智能狀況報告
皮尤研究中心 AI 採用調查
Similarweb 平台智慧

促進業務成長的資源

2026年1月3日