白交 衡宇 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI
蘋果放鴿子的更新,國產(chǎn)AI率先實現(xiàn)了。
背上一個看起來平平無奇、體積也沒什么存在感的包,宇樹機器人就聲情并茂地開口說話。
社交i人戴上AI眼鏡,就可以輕松跟外國人social,看似不經(jīng)意就加上微信好友;戴著它看展的話,看到不懂的展品還可以不懂裝懂一下(bushi。
你對智能硬件的想象,是不是還停留在“能聽懂你說話”的階段?這種“你說一句、它答一句”的交互,本質(zhì)上還是命令式的、靜態(tài)的。場景一變化,語氣一模糊,體驗就崩了。
但現(xiàn)在,這些都開始變了。萬物皆可交互,萬物皆可互聯(lián)開始具象化。
你甚至可以讓巴斯光年、變形金剛在你面前唱歌跳舞。
手里的一支簽字筆、一塊貼牌,也可以化身會議神器。
在科大訊飛最新發(fā)布會上,我看到了智能硬件的新范式:
設備不再是限制,產(chǎn)品與服務正在被AI革新,交互重構整個硬件產(chǎn)業(yè)生態(tài)。
AIUI,一站式搞定人機交互開發(fā)
正如此次發(fā)布會所展現(xiàn),一個最大的感知就是現(xiàn)在智能硬件從基礎交互邁向深度智能協(xié)作,從而在應用場景里深度賦能。
從技術角度來說,人機交互正在變成一個復雜的系統(tǒng)性工程,而不再是語音識別、模型系統(tǒng)和語音合成的簡單組合。
這背后源于AI普及之后用戶越來越高的期待。訊飛這邊給了幾個發(fā)現(xiàn):
- 單次對話輪數(shù)不斷提升,用戶對話自由度越來越高;
- 在不同場景下,由大模型引領日交互頻次實現(xiàn)飛躍,尤其是兒童、家庭、機器人場景交互數(shù)據(jù)飆升。
傳統(tǒng)交互可能局限在“你說一句、它答一句”的固定回答上面;但現(xiàn)在大模型升級,萬物皆可成為載體,智能交互所承載起的需求遠比以往復雜得多,也豐富得多。
可以說,它集成了工具屬性、娛樂屬性以及情感表達于一體,相當于它不僅有全知全能的智商,還有懂你知你的情商,這就有點像“我要你做什么,但你不能只做什么”。
當然,這就對技術側提出了很高的挑戰(zhàn),包括但不限于自然多輪對話的理解處理、情緒識別與共鳴、長程記憶、快速響應等等。
那么深耕了十年的訊飛如何應對呢?語音,是他們解決的抓手,也是此次AIUI升級的重點。
AIUI——訊飛的人機交互平臺,早在2015年就已經(jīng)上線,目前已累計服務超10億設備,在車載、AI硬件、機器人等領域都有落地。
此次升級,正如在會場上所看到的,每一臺AI設備都能擬人自然對話,每個場景都能智能響應——
背后是技術突破、場景深耕到生態(tài)開放都全面Level-Up。
技術突破方面,訊飛認為,全雙工交互模式及情緒的感知和表達是擬人交互的基礎要求。
全雙工模式下“有所聞,有所不聞”。AIUI不僅能夠有效識別噪聲和無關人聲,更重要的是,它能夠在用戶有遲疑、等待、附和時主動延長拾音。
以前語音助手可能你還沒說完它就搶答,或者你說完它反應慢半拍?,F(xiàn)在它能更聰明地判斷你是在思考停頓、在附和、還是在猶豫,不會亂打斷你,也不會讓你干等著,對話節(jié)奏更舒服了。
而且它不光聽懂你說什么詞,還能從你說話的語調(diào)、聲音里感覺出你是高興、沮喪還是煩躁。
基于千萬高質(zhì)量高情商對話數(shù)據(jù)訓練,背后模型——星火交互大模型“共情能力”升級,成為能回應你喜怒哀樂的智能伙伴。
基礎要求滿足之后,但不懂你怎么行?!此次發(fā)布另一個值得說道的就是類人記憶系統(tǒng)。
基于長短時記憶融合架構,模擬人腦記憶方式,對對話記錄進行多層精準提取(上下文對話、用戶畫像、生活事件),慢慢形成專屬的聊天方式和知識庫,像是在陪伴你共同成長。
此外在交互響應上面也卷了一下,音頻端到端響應時間做到了1.6s,在業(yè)內(nèi)量產(chǎn)語音交互系統(tǒng)中處于領先水平。
特別針對需求旺盛的兒童場景,訊飛首發(fā)兒童專屬交互方案。前面提到,大模型加持兒童場景的交互頻次飆升,733%的那種。
小孩說話常常天馬行空、表達不清,比如“我要那個會亮的星星”。科大訊飛專門訓練了童言識別模型和童語理解模型,提升對話場景下的識別率和正確理解率。
在內(nèi)容生態(tài)、交互模式、心智健康等方面,訊飛都做了相應的優(yōu)化。
例如,孩子說 “我想看恐龍”,設備不僅播放科普視頻,還會引導孩子用英語描述恐龍?zhí)卣鳌_@就是結合AI早教場景化學習提供趣味互動 。
除此之外,其他硬件場景下,在AIUI加持下也正在實現(xiàn)從功能實現(xiàn)到體驗重構。
比如智能眼鏡。即便是在發(fā)布會這樣的嘈雜環(huán)境中,基于三麥陣列降噪技術,設備能精準區(qū)分佩戴者與他人聲音,實現(xiàn)“一對一私密對話”。
當然這些場景的賦能還只是開始,要實現(xiàn)產(chǎn)業(yè)的賦能還得需要生態(tài)。
對于從來不缺開發(fā)者生態(tài)的訊飛來說,自然同樣要發(fā)揮好原有的優(yōu)勢。AIUI將聯(lián)合30萬+開發(fā)者共建AI硬件解決方案,深度打磨軟硬結合的交互效果。
董事長劉慶峰曾說過,語音將成為萬物互聯(lián)時代的主要交互方式。
如果說AIUI給硬件提供了豐富的感知和表達能力,那么還需要“大腦”賦予它思考的能力,從而實現(xiàn)從感知-理解到行動的閉環(huán)。
科大訊飛給出的答案是機器人超腦平臺。
背上就說話!智能語音背包讓“沉默”機器人開口
其實早在2022年,科大訊飛就發(fā)布了訊飛機器人超腦平臺;隨著大模型技術爆發(fā),訊飛迅速將星火大模型與超腦平臺深度融合。
現(xiàn)在的機器人超腦平臺以科大訊飛超腦2030技術底座,基于訊飛星火獨有的兩層1+N認知大模型體系構建交互大腦,大幅提升多輪對話、語義理解、知識應用、共情閑聊和行業(yè)知識構建效果。
超腦平臺要求機器人能聽會說、能理解會行動,而多模態(tài)交互正是實現(xiàn)“能聽會說”的核心技術模塊。
一方面,平臺在端側提供了視聽融合的感知交互解決方案。
通過整合視聽融合感知(語音+唇形+人臉追蹤)、多模態(tài)降噪、多人語音分離等技術,來構建機器人的感官系統(tǒng)。
如多模態(tài)降噪方面,訊飛機器人超腦平臺采用麥克風陣列窄波束算法,將限定拾音角度從傳統(tǒng)算法的60°降低到30°,明顯提升機器人設備麥克風陣列兩側噪聲抑制的效果。
即便在嘈雜環(huán)境下,機器人的語音識別率也從83%提升至96%。
另一方面,平臺在云端構建以大模型為核心的機器人大腦,同時還在工程化上做了諸多優(yōu)化。
云端大模型簡化輸出內(nèi)容,避免傳統(tǒng)機器人應答冗長問題,音頻端到端響應時間1.6s。實現(xiàn)超擬人TTS合成,還把TTS的首響時間控制在200毫秒以內(nèi)。
目前,訊飛機器人超腦平臺的產(chǎn)品已經(jīng)在多款機器人產(chǎn)品上集成和應用。
比如在永達4S店迎賓的智元遠征A2人形機器人,就集成了平臺的多模態(tài)交互,不僅實現(xiàn)對顧客的主動感知、主動迎賓,還會結合專業(yè)汽車知識庫提供車型參數(shù)問詢、促銷活動講解。
此外,這樣強大的多模態(tài)語音交互,還被北京“天工”、上海“朱雀”、浙江“領航者2號”等多款人形機器人廣泛使用。
值得一提的是,為了解決機器人行業(yè)面臨的 “碎片化需求”與“規(guī)?;涞亍敝g的矛盾,訊飛機器人超腦平臺采用模塊化設計。
具體而言,平臺打造了軟硬件一體的套件方案,快速提升交付能力。
發(fā)布會上,訊飛機器人超腦平臺還帶來了一個新產(chǎn)品:智能語音背包。
它的存在是為了破解存量機器人缺乏語音交互能力的痛點。
所有機器人無需硬件重構,把智能語音背包在背上一背就能賦予機器人開口對話的能力,即插即用。
合作伙伴宇樹G1背著它的“小背包”就上臺了:
背上智能語音背包,G1秒變段子手。
不僅在現(xiàn)場和科大訊飛產(chǎn)品經(jīng)理幽默互動,還能為自己剛在深圳學的太極拳來一套程序員喜聞樂見的動作解釋:
- 這招叫Wifi滿格!接著是代碼運行順暢——最后系統(tǒng)永不宕機!
(猜猜下圖這招叫啥?)
目前,就有超500家機器人客戶選擇了訊飛機器人超腦平臺,種類包括人形機器人、四足機器人、輪式機器人等,推動機器人從實驗室走向商場、醫(yī)院、4S店等真實場景。
訊飛堅信,隨著機器人服務現(xiàn)實世界的能力進化,在未來,遙控器、屏幕等人機交互的中間介質(zhì)都會被逐步替代,人機直接互動才是服務過程中的剛需。
AI交互不是終點
圍繞智能交互這一點,發(fā)布會現(xiàn)場還揭曉了包含開發(fā)者生態(tài)、智能硬件(如AI眼鏡)、數(shù)字人、大模型Agent在內(nèi)的不少干貨,不時引得觀眾掌聲雷動。
數(shù)字人一直是科大訊飛的拿手好戲,此次發(fā)布會上依舊格外出彩。
會上提到,對比前一年,2024年全年科大訊飛的數(shù)字人制作量提升了16%,用戶和數(shù)字人每天的交互次數(shù)增長了6.5倍。
據(jù)統(tǒng)計,AI虛擬人交互平臺已成功構建超10萬數(shù)字分身,廣泛應用于媒體、教育、政企、文旅等場景,在金融、媒體、教育等領域市場占有率都達到了第一。
現(xiàn)場還展示了科大訊飛面向個人用戶提供的輕量化定制方案——現(xiàn)在,一句話和一張照片就能快速構建一個人的數(shù)字人分身。
新產(chǎn)品移動數(shù)字人小雨也在發(fā)布會現(xiàn)場亮相。
它搭載導航和路線規(guī)劃功能,可在展廳、博物館等場景自由移動,提供導覽服務。
一個有意思的事情是,科大訊飛注意到在大模型時代來臨前,人機交互最高頻的使用場景是電視和車載;大模型時代來臨后,兒童領域對話需求非常強烈,交互速度增長了7倍以上,成為交互最高頻的場景。
一個有意思的事情是,發(fā)布會場內(nèi),科大訊飛在兒童這一高頻場景做了體驗升維:
發(fā)布會現(xiàn)場外,5名父親利用科大訊飛兒童專屬的功耗玩具開發(fā)套件,在60分鐘時間內(nèi),挑戰(zhàn)開發(fā)板的“童芯大腦”。
“技術-場景-生態(tài)”閉環(huán)在這里交織,這其實也是科大訊飛一直以來踐行的技術創(chuàng)新之道。
另外,這次挑戰(zhàn)也是科大訊飛今年開發(fā)者大賽的一部分——發(fā)布會現(xiàn)場,訊飛iFYTEK AI開發(fā)者大賽同場起航。
本屆賽事覆36道應用賽與72道算法賽,特設智能座艙交互評測、多模態(tài)虛擬人對話等前沿賽道,以開放的生態(tài)與前沿的賽題,推動人工智能新生代的成長。
從2018年起,科大訊飛每年持續(xù)發(fā)起并舉辦開發(fā)者大賽,如今這項賽事已經(jīng)成為一個全球性的人工智能競賽平臺,來自全球各地的人工智能產(chǎn)業(yè)的專業(yè)人才積極參與,共同推動人工智能前沿科學的研究和創(chuàng)新成果的實際轉化。
15年前,科大訊飛發(fā)布行業(yè)首個語音云,至此拉開了語音交互的帷幕。
5年后的2015年,科大訊飛又發(fā)布了首個人機交互界面AIUI,讓智能硬件進入了語音交互時代。
2021年有了虛擬數(shù)字人,2022年有了機器人超腦平臺,2023年有了訊飛星火大模型……2010年至今,科大訊飛的交互技術不斷突破。
而剛剛結束的這場發(fā)布會雖然是一場面向智能交互產(chǎn)品的發(fā)布會,但它講述的故事,遠不止功能更強和設備更聰明這么簡單。
最直觀的感受是它讓外界更清晰地看到,在科大訊飛這里,智能交互正實現(xiàn)從單向指令到深度協(xié)同的轉變:
它展示出的遠非科大訊飛某一項功能/工具的單一產(chǎn)品升級,而是以AI交互為中樞、貫穿硬件研發(fā)到場景落地的全鏈技術方案。
人機關系的重塑不再僅僅是“命令-執(zhí)行”,而是逐步向共同完成目標過渡。交互體驗提升不再是某個模塊的升級,而是系統(tǒng)智能協(xié)作的開始。
你也可以理解為產(chǎn)品與服務在向更便捷、更高效、更智慧的方向演進。
這種變化不僅服務于訊飛自有產(chǎn)品,實現(xiàn)產(chǎn)品體驗的躍升,更以平臺方式賦能合作伙伴,直擊廣電、家庭、醫(yī)療、辦公等諸多具體場景的核心痛點,讓產(chǎn)業(yè)升級落到實處。
總之,讓技術真正轉化為解決問題的生產(chǎn)力。
人機協(xié)作的下一站,不再只是“能溝通”,而是“能共事”,甚至“替你想”。
一個更聰明、更協(xié)作、更具生命力的智能世界,正從科大訊飛這場發(fā)布會開始,加速走進現(xiàn)實。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.