大香大香伊人在钱线久久,亚洲日韩欧美国产高清αv,日本强伦姧人妻久久影片,亚洲国产成人欧美在线观看

網易首頁 > 網易號 > 正文 申請入駐

斬獲全球SOTA,競技場雙榜登頂!這款國產語音模型憑什么?

0
分享至


智東西
作者 陳駿達
編輯 漠影

國產模型又斬獲多項SOTA!

智東西5月16日報道,近日,上海大模型獨角獸MiniMax旗下的Speech-02語音模型,在兩項全球權威語音基準測評榜單中拔得頭籌,力壓OpenAI、AI語音明星創企ElevenLabs旗下的所有語音模型。


▲左為Artificial Analysis Speech Arena榜單,右為Hugging Face TTS Arena

Speech-02不僅在WER(字錯率)、SIM(相似度)等硬性指標上實現了與真人無異、甚至更好的SOTA表現,還通過數據、架構層面的創新,實現了超強的泛化能力,支持30+種語種、不同口音、不同情緒的個性化定制


此外,Speech-02每百萬字符輸出價格為50美元,價格低至ElevenLabs的1/4,實現了性能與成本的平衡,進一步加速了相關技術的商業化落地。


目前,以Speech-02為代表的多款MiniMax語音交互模型,已經收獲多家行業頭部企業和新銳創企的選用,商業化進展迅猛。在AI語音交互這一前景廣闊的技術領域中,MiniMax已率先驗證了技術到應用的高效轉化路徑。

一、語音交互技術加速滲透,“MiniMax方案”廣受認可

近年來,語音模型技術從實驗室走向規模化應用,在語音助手、有聲內容創作、智能教育等多個領域催生出一批成功案例。

觀察行業頭部企業的實踐,我們可以發現,準確率早已不是語音技術的唯一競爭點,個性化、情感化的交互體驗正成為新標準。

在教育科技領域,龍頭企業高途利用新一代語音技術,打造了可定制化的AI語言陪練系統“吳彥祖24小時伴學”,使“AI阿祖”成為現象級教育IP,驗證了AI語音在教育場景的落地潛力。


無獨有偶,國內老牌數字閱讀企業閱文旗下的起點讀書,選擇在在有聲書場景打造定制化音色,并取得了用戶的廣泛好評。

值得注意的是,這些領軍企業在突破語音交互技術瓶頸時,都不約而同地選擇了同一家技術伙伴——MiniMax,并由此取得了顯著成效。

MiniMax語音技術不僅僅局限于上述相對成熟的場景,還賦能了眾多創新企業,通過定制化解決方案,幫助中小團隊快速實現語音交互產品的商業化落地。

今年年初,在有“消費電子風向標”之稱的CES展會上,一大批新銳創企打造的陪伴類AI硬件迎來潑天流量,其中,躍然創新推出的AI語音掛件BubblePal爆火出圈。


通過接入MiniMax的語音模型,這一小掛件能使普通毛絨玩具具備自然對話能力,還可以根據兒童喜歡的卡通人物復刻音色,高度還原角色音色,讓孩子與卡通人物沉浸對話。

蟬魔方數據顯示,在發布后的短短半年間,BubblePal的銷量在2.5-5萬之間,總銷售額超過1000萬元。截至25年3月,該產品在抖音單平臺的銷售額已經超過2000萬元。

愛小伴AI玩伴機器人同樣在CES大會上亮相。通過MiniMax的語音生成技術,愛小伴打造了“會說話的AI奶龍”,精準還原了國民IP“奶龍”的標志性聲線,不僅能與用戶進行生動互動交流,還能聲情并茂地講述故事,真正實現“寓教于陪”的創新體驗。


MiniMax語音技術支撐BubblePal、AI奶龍們實現高度擬人化、千人千面的制勝策略。該技術不僅適用于陪伴類AI硬件,也能在AI教育硬件、智能座艙等更廣闊的硬件類型上獲得成功。

這類具備強交互、定制化體驗的AI硬件,切中了消費者對于智能交互類產品日益增長的需求。

已有11年AI教育行業經驗的聽力熊團隊,選擇在其AI教育硬件上接入MiniMax語音模型能力。在基礎的語音交互和知識問答之外,MiniMax語音模型可以給用戶適當的反饋與情感表達,從而豐富學習互動體驗。


智能座艙作為未來汽車交互的核心場景,對高擬真和低延遲提出了嚴格要求,以滿足用戶對沉浸式體驗和實時反饋的需求。北汽集團極狐汽車已在其座艙中搭載了多款MiniMax大模型,給用戶提供及時響應的問答。

從有聲書到AI教育,再到智能硬件,MiniMax究竟憑借什么取得行業頭部企業和新銳創企等B端客戶的青睞?在MiniMax今年5月發布的Speech-02模型技術報告中,我們或許能找到答案。

二、技術報告全公開,Speech-02靠什么取勝?

給智能硬件們裝上“AI聲帶”的Speech-02模型屬于TTS(文本轉語音)模型。TTS模型存在多條技術路徑,其中最重要的分野之一是自回歸與非自回歸架構的選擇。

自回歸(AR)模型需要逐個順序生成輸出,每一步的生成依賴之前所有步驟的輸出,就像是“邊想邊說”。

非自回歸模型并行生成所有輸出,一次性生成所有語音幀,主要參考輸入文本,就像是“照稿念”。

Speech-02選擇的是前一條技術路線。盡管非自回歸模型在推理速度上天然具備優勢,但自回歸模型能提供更高的準確率、相似度,總體用戶體驗更佳。


在自回歸Transformer架構基礎上,Speech-02創新性地采用了“會學習的音色提取器”,本質上是一個人聲編碼器(speaker encoder)能夠將任意長度的音頻片段轉化為固定尺寸的條件向量,從而實現高質量、靈活的聲音表達,這也是Speech-02“零樣本”復刻人聲能力的關鍵。

不同于其他系統使用的預訓練人聲編碼器,Speech-02的這一模塊是和語音合成模塊一起訓練的,因此更貼合聲音合成任務的需求,能更精準捕捉音色、語調等特征,還解鎖了模型自學多語言的能力。

6826c4f124194_6826c4f12410a_中文、西班牙語、意大利語混說

原文:你們有沒有過那種 momento en que 簡單的快樂讓你覺得 la vida es bella?對了,我昨天看了一部電影,里面說 “el destino no es una cuestión de casualidad” —— 命運不是偶然的問題。這讓我 pensare molto 關于我們每天做的選擇。 對應翻譯:你有沒有過那樣一個瞬間,簡單的快樂讓你覺得生活多美好?對了,我昨天看了一部電影,里面說 “命運不是偶然的問題”,這讓我不禁思考我們每天做的選擇。

Speech-02的另一大創新是Flow-VAE模型。許多語音模型采用的傳統VAE(變分自編碼器)存在“一刀切”的問題,對復雜數據的建模效果一般。

而Flow(流模型)的加入讓語音模型能學會更自然、更多樣的音頻細節特征,提升最終的生成效果。以下方案例中的“脫口秀表演”為例,這段聲音情緒飽滿,起伏、變化自然,感染力較強。

6826c5379f34d_6826c5379f302_華人脫口秀-1

MiniMax在語音模型基礎架構的創新,讓Speech-02擁有了實現定制化的語音交互體驗的“三板斧”。

第一是情感控制,系統可使用獨立訓練的小型Lora模塊來精確調節輸出語音的情感,比如高興或悲傷,同時保留原說話者的聲音特征。

第二是文生音功能,用戶可以用語言描述想要的音色特點,系統會結合結構化參數生成符合要求的語音,還可以進行情緒控制,如同用文字描述對聲音進行“ps”。

第三是專業級聲音參考(PVC),只需少量樣本就能提取說話者的核心特征,生成高度相似的聲音,且每個克隆只需存儲極少數據。在智東西的實測中,下方的埃隆·馬斯克聲音就僅僅使用了一段20秒的音頻作為參考。

https://oss.zhidx.com/3bc512db6cef018ad9106f3a499b5bfb/68260f80/uploads/2025/05/6826c4e48bffe_6826c4e487ae0_6826c4e487ab8_Elon-Musk-1.mp3三、AI語音賽道卷出新高度,或開啟硬件與內容革命

語音作為人類最自然的交互方式,能顯著提升AI應用的溝通效率。同時,語音承載的語調、語速等情感要素若被AI精準模擬,將使交互更生動自然,賦予機器擬人化的溫度,大幅縮短人機距離感。

語音模型市場的前景十分廣闊。咨詢機構德勤的數據顯示,受益于成熟技術、政府/資本扶持以及智能化市場需求,中國智能語音市場規模將進一步增長,預計2030年市場總規模將達到1452億元,消費級應用場景超過710億元,企業級場景將達到740億規模。

已有許多企業看到了語音入口的重要價值,并開啟了相關布局。OpenAI的相關技術主打上下文感知、對話交互;ElevenLabs關注擬真度與情感表達;Meta、谷歌這兩家巨頭則將重心放在了多語言覆蓋等領域。

位居兩大權威測評榜單榜首的MiniMax,則憑借Speech-02與各大語音模型玩家們正面交鋒。Speech-02既具備自然流暢的對話能力,也可以表達豐富的情感,還通過架構創新實現了多語音的良好支持。

在當下語音模型的競爭格局中,MiniMax有自己獨立的思考。MiniMax從最初做Talkie和星野等產品時起,就意識到讓用戶擁有個性化的語音體驗對于智能交互的重要性。

MiniMax將語音技術對外開放,也成為了國內最早用大模型架構提供語音服務的公司。

本次Speech-02的登頂證明了MiniMax語音技術的技術領先性,而他們更是利用這一技術優勢布局下游應用場景,加速產品和服務在下游市場的滲透率。

今年2月,MiniMax與多家智能硬件企業牽頭成立了“MiniMax智能硬件產業創新聯盟”,該聯盟有望進一步擴展MiniMax語音技術在B端市場的發展前景。


以Speech-02為代表的MiniMax語音模型,有望與新硬件形態深度融合,加速催生以AI眼鏡為代表的新一代智能交互設備。

從宏觀角度上來看,這類新硬件形態需要便捷、個性化的語音交互體驗,才能最大化其作為下一代智能終端的潛力。

而語音技術的突破,也依賴于AI眼鏡等新型硬件提供的真實場景和數據反饋,從而持續優化算法與用戶體驗。二者相互促進,形成了技術迭代的正向循環。


展望未來,MiniMax的新一代語音技術還有可能在內容行業引發創作方式與交互體驗的變革,讓更多人能創造屬于自己的音頻與多模態內容,推動內容創作的普惠化。

例如,游戲開發者可通過語音模型,實現NPC對話的批量生成,將原本需要數月錄制的語音工程縮短至數天完成,降低開發成本;或是通過對話的實時生成,提供獨一無二的游戲體驗。

在播客行業,新一代語音技術的突破有望拓展個人創作者的能力邊界,讓他們能夠獨立完成原本需要專業團隊協作的廣播劇和敘事類播客制作,大幅降低制作門檻和成本,使高質量的播客創作不再是專業工作室的專利。

同時,播客的收聽體驗也因語音技術迎來升級。國內頭部播客平臺小宇宙已經利用MiniMax的語音技術,內測了外語播客一鍵轉中文收聽功能。


結語:個性化語音交互鳴槍起跑,MiniMax搶占領先身位

未來,隨著AI Agent和多模態交互的爆發,高度個性化、擬人化,具備強大情感表現力的語音技術,將成為突破用戶體驗的關鍵。

憑借長期的技術積累和Speech-02這一SOTA級模型的發布,MiniMax已在這一賽道上占據了領先身位。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
上海女子不上班,但卻住豪宅開豪車,警察:她家現金堆成山了

上海女子不上班,但卻住豪宅開豪車,警察:她家現金堆成山了

懸案解密檔案
2025-05-09 18:00:29
中華人民共和國戶口居民身份證管理工作規范(試行)| 公通字〔2021〕12號

中華人民共和國戶口居民身份證管理工作規范(試行)| 公通字〔2021〕12號

創作者_cLg1
2025-06-13 10:18:38
美國閱兵像散步,特朗普閱兵背后的鬧劇與與戰場上的正劇

美國閱兵像散步,特朗普閱兵背后的鬧劇與與戰場上的正劇

雨秋閑話
2025-06-14 17:46:04
湖人隊勒布朗·詹姆斯在社交媒體上發布神秘帖子,暗示即將退役

湖人隊勒布朗·詹姆斯在社交媒體上發布神秘帖子,暗示即將退役

好火子
2025-06-15 02:09:38
Shams:火箭須30號前決定是否執行范喬丹球隊選項 雙方都有意重聚

Shams:火箭須30號前決定是否執行范喬丹球隊選項 雙方都有意重聚

直播吧
2025-06-15 03:08:08
汪小菲請館長吃飯,火出圈!沒提統一,卻能句句直戳兩岸網友心窩

汪小菲請館長吃飯,火出圈!沒提統一,卻能句句直戳兩岸網友心窩

溫讀史
2025-06-14 09:49:13
首席專家滕云田,被查

首席專家滕云田,被查

新京報
2025-06-14 20:09:02
艾滋病感染人數新增130萬!攜帶者難辨,遇到“3種人”建議遠離

艾滋病感染人數新增130萬!攜帶者難辨,遇到“3種人”建議遠離

39健康網
2025-06-13 18:30:45
“惡魔醫生”劉翔峰,摘病人器官販賣,將人命當提款機,結局可笑

“惡魔醫生”劉翔峰,摘病人器官販賣,將人命當提款機,結局可笑

體制內老陳
2025-06-12 12:40:56
閱兵槍響那一刻,全美1800場抗議同時爆發:特朗普79歲生日成國家裂痕放大日

閱兵槍響那一刻,全美1800場抗議同時爆發:特朗普79歲生日成國家裂痕放大日

前沿天地
2025-06-14 21:15:49
因為有毒,這種植物已經退出各大食堂,但卻有很多人懷念

因為有毒,這種植物已經退出各大食堂,但卻有很多人懷念

文史顏如玉
2025-06-14 17:55:03
公司稱正核實“多所高校禁用羅馬仕兩萬毫安充電寶” 專家:預防手機沒電選中等體積產品即可

公司稱正核實“多所高校禁用羅馬仕兩萬毫安充電寶” 專家:預防手機沒電選中等體積產品即可

紅星新聞
2025-06-14 15:13:11
中國一姐惜??!鄭欽文爆冷出局,無緣決賽,但世界排名依舊創新高

中國一姐惜敗!鄭欽文爆冷出局,無緣決賽,但世界排名依舊創新高

小李子愛體育
2025-06-15 02:07:21
方媛承認懷三胎,每天早起為女兒做早餐,親自接送孩子,太忙了

方媛承認懷三胎,每天早起為女兒做早餐,親自接送孩子,太忙了

娛圈小愚
2025-06-14 10:35:51
票房從19.41億跌到532萬,我感慨:這塊喜劇片金字招牌算砸了!

票房從19.41億跌到532萬,我感慨:這塊喜劇片金字招牌算砸了!

靠譜電影君
2025-06-14 22:43:05
石破茂譴責以色列!

石破茂譴責以色列!

環球時報國際
2025-06-13 23:59:38
工信部等八部門公開征求意見 向境外提供5類汽車數據應申報安全評估

工信部等八部門公開征求意見 向境外提供5類汽車數據應申報安全評估

每日經濟新聞
2025-06-13 19:22:13
浙大學生想去廣東發展,希望年薪15萬,網友群嘲:不要太高估自己

浙大學生想去廣東發展,希望年薪15萬,網友群嘲:不要太高估自己

青眼財經
2025-06-12 14:01:04
為什么伊朗被以色列打得這么慘,大家卻都不同情伊朗?

為什么伊朗被以色列打得這么慘,大家卻都不同情伊朗?

戰爭史
2025-06-14 11:15:21
華為鴻蒙HarmonyOS 6.0首次亮相,全方位炸場啊!

華為鴻蒙HarmonyOS 6.0首次亮相,全方位炸場啊!

科技堡壘
2025-06-14 11:03:05
2025-06-15 04:20:49
智東西 incentive-icons
智東西
聚焦智能變革,服務產業升級。
10005文章數 116773關注度
往期回顧 全部

科技要聞

一輛新車比特斯拉FSD都便宜,全行業陪葬?

頭條要聞

以防長威脅哈梅內伊:若繼續發射導彈 德黑蘭將成火海

頭條要聞

以防長威脅哈梅內伊:若繼續發射導彈 德黑蘭將成火海

體育要聞

約戰天王山,步行者G4輸在了哪?

娛樂要聞

小S迎47歲生日,首個生日沒大S陪伴

財經要聞

樓市權威發聲

汽車要聞

長城為了拿環塔冠軍有多拼?魏建軍在下一盤大棋!

態度原創

藝術
家居
旅游
數碼
本地

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

家居要聞

森林幾何 極簡灰調原木風

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

數碼要聞

黃仁勛親筆簽名版 RTX 5090 鍍金顯卡以 24200 美元達成慈善拍賣

本地新聞

最近的打工人,都在熬夜看這劇逐幀學習職場小技巧

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 久久国产亚洲精品无码| 69精品国产久热在线观看| 中文字幕久久综合久久88| 成人免费一区二区三区视频软件| 国产00高中生在线无套进入| 欧美人与动牲猛交a欧美精品| 国产一区二区四区在线观看| 色综亚洲国产vv在线观看| 国产 麻豆 日韩 欧美 久久| 亚洲成a人一区二区三区| 亚洲色欲一区二区三区在线观看| 国产精品久久久久久久免费看| 四虎影视久久久免费| 337p日本欧洲亚洲大胆精品| 一本热久久sm色国产| 强奷漂亮人妻系列老师| 亚洲成av不卡无码无码不卡| 激情影院内射美女| 人人妻人人狠人人爽天天综合网| 亚洲熟妇大图综合色区| 精品人妻无码一区二区色欲产成人| 国产香蕉97碰碰久久人人| 日本一道人妻无码一区在线| 色欲一区二区三区精品a片| 人人爽天天碰狠狠添| 无码超乳爆乳中文字幕| 国产午夜av秒播在线观看| 无码熟熟妇丰满人妻啪啪| 性色a码一区二区三区天美传媒| 国产人久久人人人人爽| 亚洲中文字幕无码乱线| 国产18禁黄网站免费观看| 国产日韩精品一区二区三区在线| 隔壁老王国产在线精品| 丰满爆乳无码一区二区三区| 日韩av中文无码影院| 免费人成视频x8x8| 特大巨黑吊av在线播放| 久久亚洲国产成人精品性色| 在线天堂中文www官网| 欧美三级午夜理伦三级|