2026 年 4 月 2 日,微軟 AI 執行長 Mustafa Suleyman 宣布推出三款全新基礎模型——MAI-Transcribe-1、MAI-Voice-1 與 MAI-Image-2——這是迄今為止,微軟在建立完全自主 AI 能力策略上最具里程碑意義的舉措,而不再僅仰賴從 OpenAI 授權取得。對於一家市值 3.2 兆美元、過去五年投入超過 130 億美元、將 OpenAI 打造為其 AI 產品線核心的企業而言,此舉具有深遠的策略意義。這不是一個小幅漸進式更新,而是一份宣言:微軟願意與自己出資扶植的合作夥伴正面競爭。
背景脈絡至關重要。2025 年重新談判的微軟與 OpenAI 協議,悄悄移除了一項合約條款——該條款此前禁止微軟開發廣泛能力的自主 AI 模型。這項限制一旦解除,由 Suleyman 從 DeepMind(經由 Google)帶來的 MAI 超級智慧團隊便迅速行動。距離重新談判不到十二個月,微軟已開始推出生產級多模態模型,並以低於 OpenAI 和 Google 的定價,整合進 Bing、PowerPoint 與 Azure Foundry 三個平台。
其影響遠超微軟自身的產品路線圖。每一個因 Copilot 而標準化於 Azure 的企業 AI 買家,現在都擁有了更低成本的第一方語音轉錄、語音合成及圖像生成選項。每一個假設微軟將永遠只是基礎模型分銷商(而非製造商)的競爭 AI 實驗室,如今都面臨一位強大的新競爭者。而所有關注 OpenAI 估值故事的投資人,也需要重新評估這個故事中,究竟有多少依賴於微軟扮演被動接受者而非主動競爭者的角色。
本文將深入剖析微軟發布的內容、選擇此時發布的原因,以及 MAI 策略對 2026 年企業 AI 市場的意涵。
微軟在 2026 年 4 月 2 日究竟發布了什麼?
微軟在其 MAI(Microsoft Artificial Intelligence)系列中發布了三款生產就緒的模型,全部可透過 Microsoft Foundry(前身為 Azure AI Foundry)取得。
MAI-Transcribe-1 是一款語音轉文字模型,微軟聲稱其在 FLEURS(少樣本學習語音通用表示評估)基準測試中,於 25 種語言的詞錯誤率最低。它比 Azure 先前的 Fast 層級快 2.5 倍,並專門針對嘈雜的真實聲學環境加以強化——開放式辦公空間、客服中心,以及混合式會議室中交疊語音和背景噪音歷來會嚴重影響準確率的場景。定價起始為每小時處理音訊 0.36 美元。
MAI-Voice-1 是一款文字轉語音模型,能在一秒的運算時間內生成 60 秒的自然語音。該模型可在長篇內容中保持說話者身份一致性——這對有聲書製作、互動式 AI 代理及企業旁白至關重要——並引入從短短幾秒樣本音訊即可創建完整自訂合成聲音的能力。定價起始為每百萬字元 22 美元。
MAI-Image-2 是一款圖像生成模型,在 Arena.ai 社群排行榜上首次亮相即進入前三名。與上一代相比,它在 Foundry 和 Microsoft Copilot 上的生成速度至少提升 2 倍,並正陸續整合進 Bing Image Creator 和 PowerPoint Designer。定價起始為每百萬文字輸入 token 5 美元、每百萬圖像輸出 token 33 美元。
| 模型 | 模態 | 主要基準測試 | 速度提升 | 起始定價 |
|---|---|---|---|---|
| MAI-Transcribe-1 | 語音 → 文字 | FLEURS 25 種語言最低詞錯誤率 | 比 Azure Fast 快 2.5 倍 | $0.36/小時 |
| MAI-Voice-1 | 文字 → 語音 | 1 秒生成 60 秒音訊 | 全新能力 | $22/百萬字元 |
| MAI-Image-2 | 文字 → 圖像 | Arena.ai 前三名 | 比 MAI-Image-1 快 2 倍 | $5/百萬文字 token |
MAI 模型與 OpenAI 和 Google 相比如何?
定價訊號是最顯眼的數字。微軟將這三款模型定位為比 OpenAI 和 Google 同等方案更便宜,這是一個刻意的舉措,旨在將企業採購對話從純粹的能力比較,轉向總持有成本的考量。
| 服務 | 供應商 | 語音轉文字(每小時) | 文字轉語音(每百萬字元) | 圖像生成(每百萬 token) |
|---|---|---|---|---|
| MAI-Transcribe-1 | 微軟 | $0.36 | — | — |
| Whisper (API) | OpenAI | ~$0.36–$0.72 | — | — |
| Speech-to-Text v2 | Google Cloud | ~$0.72–$1.44 | — | — |
| MAI-Voice-1 | 微軟 | — | $22 | — |
| TTS HD | OpenAI | — | $30 | — |
| Cloud Text-to-Speech | — | $16–$32 | — | |
| MAI-Image-2 | 微軟 | — | — | $5 文字 / $33 圖像 |
| DALL-E 3 | OpenAI | — | — | ~$40 圖像輸出 |
| Imagen 3 | — | — | ~$20–$40 圖像輸出 |
在語音轉錄方面,微軟與 OpenAI 定價大致相當,但微軟聲稱在嘈雜環境中準確率更高。在語音合成方面,微軟的定價低於 OpenAI 的 HD 層級。在圖像生成方面,微軟與 OpenAI 的 DALL-E 3 相比具有高度競爭力,同時聲稱速度提升 2 倍。
準確率和速度聲明需要獨立驗證。但即使在定價相當的情況下,原生存在於 Azure 生態中的微軟品牌模型,仍能消除 API 跳轉延遲、簡化合規態勢,並消除受監管企業客戶跨廠商的資料駐留複雜性——這些因素往往比 10 至 20% 的成本差異更為重要。
微軟為何要自研基礎模型?
簡短的答案是:依賴風險。更長的答案涉及微軟對自身在 AI 時代定位的根本性思維轉變。
timeline
title 微軟 AI 策略演進 2019–2026
section 2019–2023
OpenAI 投資階段<br>2019 年初始投資 10 億美元<br>2023 年追加投資 100 億美元<br>GPT-4 驅動 Copilot 發布
section 2024
Mustafa Suleyman 加入<br>前 DeepMind 聯合創始人受聘<br>MAI 超級智慧團隊成立<br>Phi 小型模型系列擴展
section 2025
合作協議重新談判<br>移除自研模型的合約限制<br>MAI 團隊開始基礎模型研發<br>微軟保留 OpenAI 分銷權
section 2026
MAI 模型正式推出<br>MAI-Transcribe-1 MAI-Voice-1 MAI-Image-2<br>發布時即可在 Foundry 取得<br>整合進 Bing 和 PowerPoint原始的微軟-OpenAI 協議以分銷合作形式構建:微軟提供運算基礎設施和雲端分銷,OpenAI 提供模型。這一模式在 2023 年和 2024 年 GPT-4 及 GPT-4o 推動 Copilot 爆發式增長期間效果卓著。但隨時間推移,三個摩擦點逐漸累積。
首先,OpenAI 的每次模型改進都需要進行新一輪合約談判並通過 Azure 分階段推出——微軟無法按自身時間表交付能力更新。其次,微軟工程師發現,難以針對資料主權和客製化至關重要的特定企業用例對 OpenAI 模型進行微調。第三,也是最為緊迫的是,隨著 OpenAI 追求自己的企業直銷策略,合作關係開始出現裂痕,微軟日益淪為中間商而非受重視的合作夥伴。
2025 年重新談判的協議解決了合約障礙,但未解決根本的激勵錯位問題。自研 MAI 模型則從結構上解決了這一問題。
MAI 發布對 Azure 企業買家意味著什麼?
對企業技術團隊而言,MAI 發布重塑了三個特定工作負載的採購考量:面向客戶的語音介面、媒體和內容製作流水線,以及依賴高準確率轉錄的文件智慧化工作流程。
flowchart TD
A[企業 AI 工作負載] --> B{模態類型}
B --> C[語音轉文字]
B --> D[文字轉語音]
B --> E[圖像生成]
C --> F[MAI-Transcribe-1<br>25 種語言<br>$0.36/小時]
D --> G[MAI-Voice-1<br>自訂聲音<br>$22/百萬字元]
E --> H[MAI-Image-2<br>Arena.ai 前三名<br>$5/百萬 token]
F --> I[留在 Azure Foundry<br>無跨廠商 API 跳轉<br>簡化合規流程]
G --> I
H --> I
I --> J[降低總持有成本<br>更佳的資料駐留合規<br>統一計費管理]下表將常見企業用例對應到 MAI 發布的影響:
| 企業用例 | 相關 MAI 模型 | 主要優勢 | 遷移考量 |
|---|---|---|---|
| 客服中心轉錄與品質保證 | MAI-Transcribe-1 | 嘈雜環境準確率、2.5 倍速度 | 針對特定領域詞彙測試詞錯誤率 |
| 會議記錄與非同步溝通 | MAI-Transcribe-1 | 速度 + 多語言(25 種) | 評估說話者分離品質 |
| 互動式語音代理與 IVR | MAI-Voice-1 | 自訂聲音複製、低延遲 | 驗證客戶接觸場景的情感表達範圍 |
| 有聲書與電子學習製作 | MAI-Voice-1 | 長篇說話者身份一致性 | 需進行長篇一致性測試 |
| 行銷創意與社群媒體內容 | MAI-Image-2 | 生成速度 2 倍、Bing 整合 | 品牌視覺一致性 vs. 微調替代方案 |
| PowerPoint 投影片設計自動化 | MAI-Image-2 | 原生 PowerPoint Designer 整合 | 企業視覺規範的提示詞工程 |
最直接的影響在於已標準化於 Azure 的企業。從第三方語音轉錄或文字轉語音廠商切換至原生 Azure 端點,可降低架構複雜性,並可能改善《歐盟 AI 法案》對限制向第三方跨境資料傳輸的合規要求。對於在金融、醫療、政府等受監管行業運營的企業而言,消除這種摩擦具有實質意義。
微軟的 AI 自主化策略走向何方?
MAI 模型的發布涵蓋三種模態:語音轉錄、語音合成和圖像生成。而其明顯未涵蓋的是大型語言模型推理——這個領域 OpenAI 的 GPT-5.4 仍在驅動 Copilot。這個缺口是刻意為之,揭示了微軟策略的輪廓。
Suleyman 明確表示,目標並非一夕取代 OpenAI,而是建立一個模型組合。微軟打算運營一個多模型生態系統:在成本、延遲和控制權至關重要的模態與工作負載上,由自研 MAI 模型承擔;而在需要數年才能匹配的能力方面,OpenAI 模型則繼續支撐推理密集型應用。可以將其理解為:在微軟能夠掌控的模態上實現垂直整合,同時為尚需時日才能超越的能力維持旗艦合作關係。
這一策略的風險在於,組合模式要求客戶和開發者思考如何將工作負載路由至合適的模型——這種認知負擔是競爭性單一廠商供應商(Google 的 Gemini、Anthropic 的 Claude)不需要施加的。微軟的答案是 Foundry:一個統一的 API 和編排層,抽象化模型選擇,讓開發者無需重寫應用邏輯即可切換模型。
這個抽象層能否足夠穩健以留住開發者忠誠度,是未來 12 至 18 個月最值得關注的關鍵變數。如果 Foundry 實現其承諾,微軟將在 2026 年底擁有全球最完整的 AI 組合之一——不是儘管有 OpenAI 合作關係,而是與之並存。如果開發者體驗碎片化,競爭對手將樂於在更簡單的技術棧上鞏固地位。
MAI 的發布是可信的開局。終局仍在書寫之中。
常見問題
微軟在 2026 年 4 月發布了哪三款 MAI 模型? 微軟發布了 MAI-Transcribe-1(支援 25 種語言的語音轉文字)、MAI-Voice-1(具備自訂聲音複製功能的文字轉語音),以及 MAI-Image-2(Arena.ai 排行榜前三名的圖像生成模型),全部可透過 Microsoft Foundry 使用。
MAI-Transcribe-1 與 OpenAI Whisper 相比如何? MAI-Transcribe-1 在 FLEURS 基準測試中於 25 種語言的詞錯誤率最低,並且比 Azure 先前的 Fast 方案快 2.5 倍,專為嘈雜的真實環境(如客服中心和會議室)優化設計。
微軟為何要自研基礎 AI 模型,而不繼續依賴 OpenAI? 2025 年重新談判的合作協議移除了此前限制微軟開發廣泛能力模型的合約條款。自研模型可降低廠商依賴、實現更緊密的產品整合,並讓微軟對定價與產品路線圖擁有更大的掌控權。
MAI 模型的發布代表微軟要與 OpenAI 分道揚鑣嗎? 並非如此。微軟仍維持其 130 億美元的 OpenAI 投資,並持續以 GPT-5.4 驅動 Copilot。MAI 的發布是策略性多元佈局,而非決裂。
MAI 發布對目前使用 Azure AI 的企業團隊意味著什麼? 企業團隊無需離開 Azure 生態系即可取得更具競爭力的選項,MAI-Transcribe-1 每小時 0.36 美元、MAI-Image-2 每百萬 token 起價 5 美元,相較同等 OpenAI 或 Google 端點具有顯著成本優勢。
誰領導微軟的 MAI 部門? 微軟 AI 執行長 Mustafa Suleyman 領導 MAI 超級智慧團隊。他是 DeepMind 聯合創始人,曾主掌 Google DeepMind,於 2024 年加入微軟。