新智元報道
編輯:編輯部 YZJH
【新智元導讀】科大訊飛又搞了個大動作,智能交互直接燃爆!AIUI全新升級,兒童專屬交互方案,AI眼鏡「三麥陣列」硬核出圈,還有機器人語音背包、移動數字人「小雨」實力搶鏡。一場發布會,讓我們看到下個時代人機交互的全貌。
不知不覺間,硅谷的巨頭都開始搞AI硬件了:蘋果押寶的是Vision Pro的結合;Meta在緊鑼密鼓地測試AI眼鏡;英偉達押注機器人。
不過國內有一位玩家,早已布局多年,下好了先手棋——
在智能硬件這條路上,科大訊飛已深耕多年,AI學習機、辦公本都做到了線上品類銷量第一,構建起了中國的「智能交互新生態」。甚至還憑借獨特的開發者生態,大大賦能了行業創新。
而就在剛剛,科大訊飛又在深圳整了個大活兒!
這次,圍繞智能交互場景,他們直接來了一波全面升級——AIUI、機器人超腦、虛擬人交互、訊飛星辰4大平臺。
而且不光是產品,平臺技術也開放了,還直接放出企業級的智能體引擎。可以說,是把智能狠狠砸進了各行各業。
AIUI下一個時代
科大訊飛的AIUI人機交互平臺,已經發布了10年。
它以大模型為引擎,融合了情緒識別、創意生成、深度語義理解等類人多模態能力,成為產業智能化升級的核心支撐。
大模型發布前,兒童場景的交互最少;而現在兒童場景的交互次數增長了7倍以上。孩子們樂于與機器人「聊天」,這正是AI進步的結果。
兒童專屬陪伴,AI承包了
然而這其中就有一個難點:兒童的表達方式,是一種「童言幼語」,跟成人有很大區別。
對于每個孩子來說,吐字不清、語言結構簡單,甚至缺乏邏輯,表達跳躍等,都是很常見的現象。
為此,科大訊飛基于兒童說話習慣,專門打造了童言識別和童語理解的兒童專屬交互方案,幫助我們更好地理解兒童的表達。
它不光對話起來更有趣、更友好,還能以引導的方式和兒童對話。
這樣,AI就深度適配了兒童的表達邏輯,做到了更懂孩子。
除了這些專屬方案本身,科大訊飛還打造了許多寓教于樂的兒童內容。
在趣味對話上,他們打造了很多經典IP,深受孩子們的歡迎。
只要一句話,就能激發海量的IP人設。在對話中,它們會主動找話題,引導孩子造詞,還能一起玩故事共創、猜謎語、腦筋急轉彎等趣味游戲。
團隊還為兒童打造了許多早教技能,包括語言發展技能、科學發展技能、社會能力認知技能等等,讓孩子在趣味的交互中全面成長。
此外,他們還打造了專門面向兒童的趣味信源,包括兒童故事和兒童音樂。
大家非常關注的另一個話題,就是兒童心理健康。訊飛的兒童交互方案,正是以鼓勵、夸獎的話術為主,幫助孩子建立自信心。
同時,對于可能發生的潛在風險,它也能給出及時、正確的引導。
兒童守護計劃同步發布,讓孩子們在AI的守護下健康成長
比如孩子在學校如果發生什么事情,可能回家不愿意和家長說,但會和機器去聊。這種情況下,AI就會對孩子出現情緒或行為問題進行積極正向的引導。
在風險格外嚴重的情況下,就會通知家長。
并且,此方案已經針對未成年保護內容進行了定向調優,為兒童打造了一個絕對純凈健康的交互環境。
看完下面這個視頻,你就會明白,為什么孩子們這么喜歡跟科大訊飛的機器人聊天了。
更令人驚喜的是,科大訊飛還開發了玩具開發套件,接入便捷,配置成本低,適用于多種場景,如帶屏玩具、無屏玩具、桌面機器人等。
而在大會現場,幾位寶爸也參加了一個60分鐘極速挑戰,要求在幾小時內開發出一個兒童應用。
在挑戰中,每位「寶爸」會被分發一塊硬件開發板,依托星辰Agent開發平臺,在極短時間內構建出具備情緒識別與童趣對話能力的兒童交互Agent,為硬件注入智慧人格。
智能眼鏡,和外國小姐姐絲滑交流
兒童語音交互之外,智能眼鏡也是剛需的場景,是下一個通向人機交互的未來。
與頭顯不同的是,它的交互范式只能依賴語音。
為此,訊飛打造了一個專屬「三麥陣列」方案,針對不同場景,做了定向訓練。
三個麥克風的作用在于,識別語音輸出是否是佩戴者發出,以及對話人的聲音。
說這么多,不如看看「三麥陣列」智能眼鏡實際效果如何?
現場演示中,工作人員戴上眼鏡隨口發問,「減肥期間,可以吃荔枝嗎」?小飛立即給出回復,「荔枝熱量糖分超高,過量易導致熱量超高」,還給出了減肥建議。
這是語音交互的一個簡單的例子。如果旅游的時候,遇到不懂的景點,直接交給這款智能眼鏡。
工作人員拿起一張三星堆藏品圖,問道「小飛小飛,這是什么」?
令人驚艷的是,從青銅大立人像細節,到歷史背景,它給出了非常直觀的回復,就如一個真·導游現場講解。
出國旅游常遇到歪果仁,聽不懂不會說又是一大難題。而現在,有了面對面翻譯功能,任何人戴上智能眼鏡就能切大號了。
外國小姐姐和工作人員交流非常絲滑,智能眼鏡實時翻譯,完全不卡殼。
有了這些實用功能,不論是交朋友,還是談合作,賈維斯就不再是科幻。
隨時隨地,語音交互
今天,科大訊飛不僅實現了語音識別的極速響應,像和真人交流一樣可隨時「插話」的流暢體驗,而且還能在嘈雜環境中保證語音交互的可靠性。
為了做到這一點,團隊開發了從多麥克風陣列降噪收音到線性雙麥、四麥、六麥的多模態降噪技術,還有專為戶外移動場景降噪設計的3麥降噪方案,讓AI能在各種噪聲的環境中「耳聰目明」。
在機器轟鳴中,建筑工地的智能安全帽,清晰接收指令;騎行中的智能眼鏡,過濾風聲,準確識別「導航到最近咖啡館」的需求;在人聲鼎沸的機場,值機柜臺旁的機器人客服能理解旅客查詢——
這些曾經的技術難點,如今都已被攻克。
當AI學會「察言觀色」
而語音智能最令人振奮的進步,莫過于從「能聽會說」到「察言觀色」的跨越。
如今的AI不僅能聽懂字面意思,還能感知情緒、記憶偏好,甚至理解兒童獨特的話語方式——機器正變得越來越像人。
基于千萬高質對話數據訓練,專為情感交互場景打造的「交互大模型」,讓設備讀懂氣氛,「高情商」回應喜怒哀樂。
類人記憶系統與自定義角色,則賦予設備獨特個性。
科大訊飛的「極速超擬人交互」技術更是將情感交互推向新高度,支持1300多種人設和情感語氣自由切換。
系統會基于對歷史話自動生成個性化知識庫,實現 「共同成長的陪伴」。
現代AI交互系統構建了三層記憶體系:
· 上下文記憶,保證對話連貫性;
· 用戶畫像記憶,存儲長期偏好;
· 生活事件記憶,關聯特定場景知識。
比如,當你在智能辦公軟件中輸入「關于AI交互技術」時,系統會根據你過去的寫作習慣,自動補全的應用前景分析。
這種記憶能力讓AI從「通用助手」進化為「個人專屬管家」。
全新語音背包,機器人秒變社交達人
有了AIUI,為什么還需要機器人超腦呢?
這是因為,機器人本身結構非常復雜,面對的場景更加復雜。而現實任務中,有些需要「具身智能」才能完成。
2022年,訊飛首次亮相「機器人超腦平臺」,目標直指讓機器人能聽會說、能理解會行動。
時隔3年,在這個平臺下,訊飛機器人生態呈現了繁榮景象。
「超腦平臺」在端側提供了視聽融合解決方案, 包括多模態降噪、人類識別、物體識別,還有軟硬一體設計。
針對不同四輪、雙足、輪式機器人多種形態,平臺提供定制化了硬件交互。
而且,機器人往往會面對比較嘈雜、多人對話的場景。
為此,訊飛打造了多人多模態交互技術,語音+唇形+降噪分離結合,就可以精準識別。在三人場景下,語音分離率高達87%,識別準確率超90%。
另外,當遇到沒有網絡、弱信號的時,機器人在現實世界會遇到極大的挑戰。
而現在,不用擔心,訊飛離線交互套件一鍵解決,讓所有交互、識別,都在端側完成。
值得一提的是,訊飛大會上,機器人超腦平臺帶來了全新「智能語音背包」,讓語音成為機器人標配。
只要把背包背在機器人身上,它就具備了張口對話的能力。
現場,產品經理一開口——小飛小飛,該你上場了,隨即成功召喚宇樹G1登臺。
激情澎湃的G1揮著手臂,向臺下觀眾打招呼,「各位科技大佬、酷炫玩家們,大家下午好,歡迎來到智能產品交互升級party」。
緊接著,它秀出了自己偷學的賽博朋克太極拳,一邊演示,一邊配著梗解釋,言語之間非常流暢。
「這招叫WiFi信號滿格,接著是代碼運行順暢,再來個數據精準無誤,最后是系統永不宕機」。
不得不說,機器人有了這個「智能語音背包」的加持,能說會道,秒變社交達人。
此外,機器人超腦平臺還帶來了「具身智能訓練一體機」。在針對特定任務訓練時,從采集數據、訓練,到推理是一個非常復雜的過程。
一體機最大優勢在于,將這些過程在一臺機器完成,能加速產業推廣和應用。
如今,科大訊飛合作500多家機器人公司,在酒店服務、展廳展館、汽車銷售、智慧零售等領域,全面鋪開。
移動數字人閃現,人類AI伙伴
人機交互,不僅局限于機器人實體,數字人也是下一個重要的分支。
這次大會現場的亮點,無疑就是一款全新的移動數字人——「小雨」了。
她的出現,可以說讓全場掀起了最高潮。
不同于以前在大模型一體機或固定屏幕中的的數字人,它可以出現在導覽場景,提供移動式的交互。
之所以能移動,是因為它的底座配有制圖和路線規劃的功能。
在現場,數字人「小雨」按照提前制作好的動線移動上臺,和主持人進行了流暢自然的對話,引得了全場喝彩。
接下來,主持人還隨機從場上搖上來一位嘉賓,小雨面對他的種種發問,面不改色,回答流利。
嘉賓對小雨的表現極為贊嘆,表示非常期待在自己公司的展廳中,也能有這樣一個對話流利絲滑的數字人。
大會上,科大訊飛還介紹了AI虛擬人交互平臺。
憑借業界領先的多模態感知和生成技術,這個平臺實現了「極簡革命」,僅需一句話復刻聲音、一張圖生成數字分身,即可在82種語言場景中,「分鐘級」創建虛擬形象。
目前,已有累積超100萬聲音復刻用戶、10萬數字分身資產,真正實現了「每人皆可擁有數字分身」的愿景。
訊飛的虛擬人,現在已經廣泛應用于媒體、教育、政企、文旅等場景,甚至還面向個人用戶提供輕量化的定制方案。
通過超擬人技術,每個企業和個人,都可以快速構建自己的數字分身了。
只要一句話,大模型就能復刻聲音;只要一張圖,就能構建超擬人數字人。
在現場,工作人員就用訊飛智作,迅速復刻了科大訊飛趙總的聲音,制作出了他的數字分身——小趙總。
厲害的是,它不僅聲音非常還原,還能支持中、日、英、韓、俄等多種語言。
而數字人的樣貌,也同樣可以定制。一眨眼的時間,訊飛智作就生成了小趙總的商務版數字人。
「他」不僅聲音跟趙總一模一樣,說起外語來也是6到飛起。
在AI虛擬人交互平臺上,科大訊飛提供了全棧的數字人應用服務,包括豐富的資產構建方式、可自由集成的免費API、能靈活應用的零代碼SaaS、可開箱即用的軟硬件套裝等。
爆火Agent,一鍵定制專屬應用
發布會另一個重點,便是訊飛大模型平臺——星辰Agent。
人們都說,2025年是Agent元年。當前,Agent已成為開發應用的一個重要的方式,大幅降低了開發門檻。
星辰Agent是一個一站式定制開發平臺,可以完成從Agent開發、應用測評,到可控發布、運營迭代所有流程,還包含了RAG等專業工具。
對于開發者來說,應用開發時間大幅縮短,效率倍增。
會上,訊飛正式面向企業,發布了星辰Agent平臺專業版。
它能提供高并發、高容量的優享資源,還支持效果評測、團隊協作、1V1定制服務。
多款智能體應用已在星辰Agent平臺上線
訊飛產品經理丁瑞演示demo中,針對深圳進出口貿易報關,一項非常繁雜的任務——從發票、運單中提取報關所需要的信息,開發了一個智能體。
由于這個智能體任務復雜,需要從星辰創建一個高階工作流,選用圖片文字抽取模版。
驚艷的是,平臺直接給出了一套完整的流程,只需將圖片、提示、定義抽取字段等所需信息填入即完成。
接下來,上傳一個報關單發票,結構比較復雜,讓Agent提取信息,從OCR識別、大模型解析,到抽取信息,非常快速地完成了任務。
C端B端,全面稱雄
過去15年,正是AI飛速發展的15年,也是科大訊飛開放平臺,迅速發展的15年:
2010年,發布了業界首個語音云,正式拉開語音時代的帷幕。隨后花了3~5年時間推動語音輸入的普及;
2015年,推出首個AI人機交互界面——AIUI;
2021年,發布虛擬人;
2022年,推出機器人超腦;
2023年,邁入了大模型時代,發布「星火大模型」。
大模型的到來,帶來了哪些變化?
如今,大模型浪潮驅動開發者高質增長,訊飛生態合作伙伴已超1152萬,遍布了日韓、新加坡、中東、歐洲等地,構建出全球領先的AI開放生態。
值得一提的是,機器人、智能辦公、穿戴領域開發者翻倍,數字人創作量激增16倍,人均交互頻次提升6.5倍。
顯而易見的是,大模型時代下,交互范式正加速變革。
在技術研發上,科大訊飛早有多項突破:
· 2008年,首次讓機器的語音合成超過普通人說話水平;
· 2012年,首次讓機器的語音評測超過人類專家水平;
· 2015年,首次讓機器的語音識別超過人類速記員水平。
之后,科大訊飛創立了國內「歷史上的首次」:
· 2017年,「智醫助理機器人」首次通過國家執業醫師資格考試綜合筆試測試,并超過96.3%的人類考生;
· 2018年,首次讓機器翻譯的中英語音翻譯達到CATTI全國翻譯專業資格(水平)考試二級合格標準;
· 2022年,在OpenBookQA知識推理挑戰賽中,首次單模型超過人類平均水平;
在To B/To G領域,早在2024年,科大訊飛就已做到了多個行業第一。
根據Xsignal奇異因子報告數據,科大訊飛旗下已有三款應用成功突破百萬月活大關,分別是訊飛星火(APP 端)、訊飛AI學(APP 端)和訊飛曉醫(APP端)。
其中,訊飛星火APP在中國APP端AI應用排行榜中位列第7,躋身通用大模型賽道的Top5。
AI時代,人機交互應該是什么樣?這場大會,訊飛給出了最好的答案——AIUI。
正如科大訊飛董事長劉慶峰所言:「語音,將成為萬物互聯時代的主要交互方式」。
當下,智能語音若要走進多場景應用,機器人恰是將這些交互,拉進現實最重要的一步。
從兒童專屬交互方案、AI智能眼鏡「三麥陣列」,到機器人語音背包,再到移動虛擬數字人,我們已經看到了下一個人機交互的未來。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.