每日微信報(bào)
人物專(zhuān)訪監(jiān)管
制造芯片
6G 運(yùn)營(yíng)
大數(shù)據(jù)物聯(lián)網(wǎng)
移動(dòng)互聯(lián)網(wǎng)量子
云計(jì)算互聯(lián)網(wǎng)
報(bào)告衛(wèi)星

微軟、谷歌同日發(fā)布新AI模型：語(yǔ)音、圖像與本地開(kāi)源能力齊上陣

2026年4月3日 07:12華爾街見(jiàn)聞官方

微軟與谷歌周四同步發(fā)布新一代AI模型，進(jìn)一步加碼多模態(tài)能力布局。微軟推出自研MAI系列基礎(chǔ)模型，覆蓋語(yǔ)音轉(zhuǎn)寫(xiě)、語(yǔ)音生成和圖像生成，并加速融入自家產(chǎn)品體系；谷歌則發(fā)布Gemma 4開(kāi)源模型，主打本地運(yùn)行和多模態(tài)能力，并將許可切換至更開(kāi)放的Apache 2.0協(xié)議。

微軟：三款MAI模型覆蓋語(yǔ)音與圖像能力

微軟推出的“世界級(jí)”自研MAI模型，一共包括三款。

首先是MAI-Transcribe-1，這是一款“最先進(jìn)”的語(yǔ)音轉(zhuǎn)文本模型，該模型在全部25種語(yǔ)言上均優(yōu)于OpenAI的Whisper-large-v3，在25種中有22種優(yōu)于Google的Gemini 3.1 Flash，在15種語(yǔ)言上優(yōu)于ElevenLabs的Scribe v2和OpenAI的GPT-Transcribe。MAI-Transcribe-1的起步價(jià)格為每小時(shí)0.36美元。

該模型采用基于Transformer的文本解碼器和雙向音頻編碼器，支持MP3、WAV和FLAC格式，最大文件200MB。微軟表示，其批量轉(zhuǎn)寫(xiě)速度是Azure Fast現(xiàn)有方案的2.5倍。說(shuō)話人分離、上下文偏置和流式處理功能將“很快推出”。目前，該模型已在Copilot語(yǔ)音模式和Microsoft Teams中測(cè)試，用于對(duì)話轉(zhuǎn)寫(xiě)，這也顯示出微軟正快速用自研模型替代外部或舊有方案。

其次是MAI-Voice-1，這是一款新的語(yǔ)音生成模型，只需1秒即可生成60秒的音頻，并在長(zhǎng)文本中保持說(shuō)話人一致性，用戶(hù)只需幾秒音頻即可創(chuàng)建自定義聲音。同時(shí)，它還支持在Microsoft Foundry中通過(guò)短音頻樣本創(chuàng)建定制語(yǔ)音。MAI-Voice-1的起步價(jià)格為每100萬(wàn)個(gè)字符22美元。

最后是MAI-Image-2，這是一款更快的文生圖模型，目前已經(jīng)開(kāi)始在Copilot中上線，接下來(lái)將陸續(xù)應(yīng)用于Bing和PowerPoint。MAI-Image-2的價(jià)格為文本輸入每100萬(wàn)個(gè)詞元（Token）收費(fèi)5美元，圖像輸出每100萬(wàn)個(gè)詞元收費(fèi)33美元。

如今，這三款模型已全部在Microsoft Foundry上線，其中語(yǔ)音轉(zhuǎn)寫(xiě)和語(yǔ)音生成模型也可在MAI Playground中使用。這些模型由微軟的MAI超級(jí)智能團(tuán)隊(duì)開(kāi)發(fā)，該團(tuán)隊(duì)由Microsoft AI首席執(zhí)行官穆斯塔法·蘇萊曼（Mustafa Suleyman）領(lǐng)導(dǎo)，于2025年11月成立并對(duì)外公布。

微軟表示：“我們正在快速部署這些頂級(jí)模型，用于支持自家的消費(fèi)者和商業(yè)產(chǎn)品。很快你將會(huì)在Foundry以及微軟各類(lèi)產(chǎn)品和體驗(yàn)中看到更多模型�！�微軟加速擺脫依賴(lài)：自研模型體系逐步成型

媒體分析稱(chēng)，這一發(fā)布表明，盡管微軟仍與OpenAI保持緊密合作，但公司正持續(xù)推進(jìn)構(gòu)建自有多模態(tài)AI模型體系，并與其他AI研究機(jī)構(gòu)展開(kāi)競(jìng)爭(zhēng)。

這些模型的推出，與微軟與OpenAI之間的一次關(guān)鍵合同調(diào)整密切相關(guān)。在2025年10月之前，微軟在合同上被限制，無(wú)法獨(dú)立推進(jìn)通用人工智能的研發(fā)。2019年的原始協(xié)議規(guī)定，微軟以提供云基礎(chǔ)設(shè)施為交換，獲得OpenAI模型的授權(quán)。但當(dāng)OpenAI開(kāi)始與軟銀等其他合作伙伴擴(kuò)大算力合作時(shí)，微軟重新談判了協(xié)議。

蘇萊曼在2025年12月接受采訪時(shí)表示：“直到幾周前，微軟在合同上是不被允許獨(dú)立推進(jìn)AGI或超級(jí)智能的�！毙聟f(xié)議使微軟可以自主開(kāi)發(fā)前沿模型，同時(shí)仍保留到2032年的OpenAI模型授權(quán)。

不過(guò)，蘇萊曼在周四接受媒體采訪時(shí)重申，微軟仍將繼續(xù)與OpenAI保持合作關(guān)系。但他也向媒體表示，近期對(duì)雙方合作關(guān)系的重新談判，使微軟能夠真正推進(jìn)其超級(jí)智能研究。

“與OpenAI的合作沒(méi)有改變，我們至少會(huì)合作到2032年，甚至更久。他們是非常優(yōu)秀的合作伙伴�！�

同時(shí)，微軟也通過(guò)Foundry提供Anthropic Claude模型，將自身定位為“平臺(tái)中的平臺(tái)”。但其戰(zhàn)略意圖很清晰：微軟正在打造獨(dú)立能力。

微軟已向OpenAI投資超過(guò)130億美元，并通過(guò)一項(xiàng)多年期合作，將其模型部署在自家多款產(chǎn)品中。微軟在芯片領(lǐng)域也采取類(lèi)似策略：既自主研發(fā)，也同時(shí)采購(gòu)?fù)獠抗⿷?yīng)商的產(chǎn)品。

分析稱(chēng)，這一發(fā)布時(shí)點(diǎn)對(duì)微軟而言頗為關(guān)鍵。公司股價(jià)剛經(jīng)歷自2008年金融危機(jī)以來(lái)最差的一個(gè)季度，投資者正越來(lái)越迫切地要求看到，數(shù)千億美元的AI基礎(chǔ)設(shè)施投入如何轉(zhuǎn)化為實(shí)際收入。這些模型——定價(jià)激進(jìn)，同時(shí)有助于降低微軟自身成本——成為蘇萊曼對(duì)此壓力的首次回應(yīng)。

從競(jìng)爭(zhēng)格局看，這次發(fā)布讓微軟在多個(gè)方向同時(shí)發(fā)力。MAI-Transcribe-1直接挑戰(zhàn)OpenAI Whisper在開(kāi)源社區(qū)的地位，也對(duì)Google Gemini形成壓力；MAI-Voice-1則對(duì)標(biāo)ElevenLabs等語(yǔ)音AI公司；加上Foundry統(tǒng)一API入口，形成強(qiáng)大的分發(fā)優(yōu)勢(shì)。

蘇萊曼表示：“我們現(xiàn)在是僅次于OpenAI和Gemini的前三實(shí)驗(yàn)室�！薄拔覀円龅剿性茝S商里最便宜，包括亞馬遜和谷歌，這是有意識(shí)的決定。”谷歌：Gemma 4開(kāi)源模型強(qiáng)化本地AI與開(kāi)發(fā)者生態(tài)

谷歌推出的Gemma 4開(kāi)源模型采用Apache 2.0許可，而不再使用此前自定義的Gemma許可協(xié)議。谷歌表示，這些模型具備高級(jí)推理能力、代理式工作流、代碼生成，以及視覺(jué)和音頻生成能力，并提供四種不同版本，針對(duì)本地運(yùn)行進(jìn)行了優(yōu)化，甚至可以運(yùn)行在“數(shù)十億臺(tái)安卓設(shè)備”上。

谷歌表示：“Gemma 4基于與Gemini 3相同的世界級(jí)研究和技術(shù)，是目前你可以在本地硬件上運(yùn)行的能力最強(qiáng)的一系列模型。它們與我們的Gemini模型形成互補(bǔ)，為開(kāi)發(fā)者提供業(yè)內(nèi)最強(qiáng)大的開(kāi)源與專(zhuān)有工具組合�！薄斑@種開(kāi)源許可為開(kāi)發(fā)者提供了完整的靈活性和數(shù)字主權(quán)基礎(chǔ)，讓你可以完全掌控?cái)?shù)據(jù)、基礎(chǔ)設(shè)施和模型。你可以在任何環(huán)境中自由構(gòu)建并安全部署，無(wú)論是在本地還是云端�！彼姆N版本：從手機(jī)到GPU全覆蓋

四種不同版本主要區(qū)別在于參數(shù)規(guī)模。針對(duì)邊緣設(shè)備（包括智能手機(jī)），公司推出了20億和40億參數(shù)的“Effective”模型，更注重多模態(tài)能力和低延遲處理，適用于移動(dòng)設(shè)備和物聯(lián)網(wǎng)設(shè)備。針對(duì)更強(qiáng)大的設(shè)備，則提供了260億參數(shù)的“Mixture of Experts”（專(zhuān)家混合）模型，以及310億參數(shù)的“Dense”（稠密）模型，旨在運(yùn)行于消費(fèi)級(jí)GPU上，可用于驅(qū)動(dòng)IDE、編程助手以及代理式工作流。這些模型還支持完全離線運(yùn)行。

谷歌表示，在Gemma 4上實(shí)現(xiàn)了“前所未有的單位參數(shù)智能水平”。為佐證這一說(shuō)法，公司指出，Gemma 4中310億和260億參數(shù)版本在Arena AI文本排行榜上分別位列第三和第六，擊敗了規(guī)模是其20倍的模型。

所有這些模型都可以處理視頻和圖像，因此非常適合用于光學(xué)字符識(shí)別等任務(wù)。較小的兩個(gè)模型還支持處理音頻輸入并理解語(yǔ)音。此外，谷歌表示，Gemma 4系列支持離線代碼生成，這意味著用戶(hù)可以在沒(méi)有互聯(lián)網(wǎng)連接的情況下進(jìn)行編程（例如進(jìn)行“vibe coding”）。這些模型還支持超過(guò)140種語(yǔ)言。

谷歌的Gemma 4開(kāi)源模型可以在多個(gè)平臺(tái)下載，包括Hugging Face、Kaggle和Ollama。谷歌強(qiáng)調(diào)：

“這些模型在基礎(chǔ)設(shè)施安全方面，遵循與我們專(zhuān)有模型相同的嚴(yán)格安全協(xié)議�！�

編輯：章芳

飛象網(wǎng)版權(quán)及免責(zé)聲明:
1.本網(wǎng)刊載內(nèi)容，凡注明來(lái)源為“飛象網(wǎng)”和“飛象原創(chuàng)”皆屬飛象網(wǎng)版權(quán)所有，未經(jīng)允許禁止轉(zhuǎn)載、摘編及鏡像，違者必究。對(duì)于經(jīng)過(guò)授權(quán)可以轉(zhuǎn)載，請(qǐng)必須保持轉(zhuǎn)載文章、圖像、音視頻的完整性，并完整標(biāo)注作者信息和飛象網(wǎng)來(lái)源。
2.凡注明“來(lái)源：XXXX”的作品，均轉(zhuǎn)載自其它媒體，在于傳播更多行業(yè)信息，并不代表本網(wǎng)贊同其觀點(diǎn)和對(duì)其真實(shí)性負(fù)責(zé)。
3.如因作品內(nèi)容、版權(quán)和其它問(wèn)題，請(qǐng)?jiān)谙嚓P(guān)作品刊發(fā)之日起30日內(nèi)與本網(wǎng)聯(lián)系，我們將第一時(shí)間予以處理。
本站聯(lián)系電話為86-010-87765777，郵件后綴為cctime.com，冒充本站員工以任何其他聯(lián)系方式，進(jìn)行的“內(nèi)容核實(shí)”、“商務(wù)聯(lián)系”等行為，均不能代表本站。本站擁有對(duì)此聲明的最終解釋權(quán)。