大香大香伊人在钱线久久,亚洲日韩欧美国产高清αv,日本强伦姧人妻久久影片,亚洲国产成人欧美在线观看

網易首頁 > 網易號 > 正文 申請入駐

首次引入強化學習!火山引擎Q-Insight讓畫質理解邁向深度思考

0
分享至




機器之心報道

機器之心編輯部

Q-Insight不再簡單地讓模型擬合人眼打分,而是將評分視作一種引導信號,促使模型深度思考圖像質量的本質原因。有了會思考的“大腦”,視頻云技術棧不僅得以重塑也讓用戶體驗有了躍遷。

從 GPT-4o 吉卜力風、即夢的 3D 動畫、再到蘋果 Vision Pro,AI 視覺創作正迎來生產力大爆炸。一個重要問題隨之浮現:如何評估機器生成的畫質符合人眼審美?人眼能瞬間辨別圖像優劣,但教會機器理解「好看」卻充滿挑戰。

視覺革命,呼喚新的畫質「評估師」

作為人們日常內容消費的核心載體,音視頻在過去幾十年間經歷了從低分辨率、有限色彩到超高清沉浸體驗的技術躍遷。這場視覺革命的背后,音視頻相關技術始終是其中的技術支柱,支撐著內容從生產、處理、編碼、傳輸到消費的全鏈路運作。

隨著生成式人工智能與多模態大模型的發展,用戶視頻體驗有了深刻變革。

首先,內容生產將從 UGC/PGC 發展到 AIGC,伴隨視頻生成模型與智能工具的普及,極大的降低了視頻生產的門檻。同時,AIGC 也推動「音視頻」成為新的「通用」語言,為用戶提供了更多元、更生動的交流方式。

其次,得益于 AI 的深度學習能力及其自我進化的特性,交互方式正從以往的人機交互、人人交互,邁向人與 AI 融合交互的新時代。

最后,用戶的交互空間也在從 2D、3D、VR,逐步拓展到虛實融合的全新空間,這帶來了更沉浸的交互體驗,讓實時互動更加「身臨其境」。

面對多模態大模型對視頻生態以及技術架構影響,視頻云作為底層基礎設施正面臨機遇和挑戰。



Q-Insight:深度思考,「看懂」畫質

在音視頻鏈路中,采集、壓縮、處理、傳輸、播放等環節大多都基于一個核心問題展開,即人眼的畫質感知。多模態大模型的快速發展為新時代的音視頻技術帶來了新的機遇,面對人眼感知的畫質理解提供了一種全新的解決方案。

以往的畫質理解的方法主要分為兩類:(1)評分型方法,這類方法通常只能提供單一的數值評分,缺乏明確的解釋性,難以深入理解圖像質量背后的原因;(2)描述型方法,這類方法嚴重依賴于大規模文本描述數據進行監督微調,對標注數據的需求巨大,泛化能力和靈活性不足。

針對上述問題,北京大學與火山引擎多媒體實驗室的研究人員聯合提出了基于強化學習訓練的多模態大模型圖像畫質理解方案 Q-Insight。



論文鏈接:https://arxiv.org/pdf/2503.22679

與以往方法不同的是,Q-Insight 不再簡單地讓模型擬合人眼打分,而是將評分視作一種引導信號,促使模型深度思考圖像質量的本質原因。通過這種創新思路,Q-Insight 在質量評分、退化感知、多圖比較、原因解釋等多個任務上均達到業界領先水平,具備出色的準確性和泛化推理能力,并且不依賴大量高成本的文本數據標注。



Q-Insight 首次將強化學習引入圖像質量評估任務,創造性地運用了「群組相對策略優化」(GRPO)算法,不再依賴大量的文本監督標注,而是挖掘大模型自身的推理潛力,實現對圖像質量的深度理解。如圖所示,Q-Insight 不僅輸出單純的得分、退化類型或者比較結果,而是提供了從多個角度綜合評估畫質的詳細推理過程。

實驗結果充分驗證了 Q-Insight 在圖像質量評分、退化檢測和零樣本推理任務中的卓越表現:在圖像質量評分任務上,Q-Insight 在多個公開數據集上的表現均超過當前最先進的方法,特別是在域外數據上的泛化能力突出,并能夠提供完整詳細的推理過程。



在退化感知任務上,Q-Insight 的表現顯著優于現有的退化感知模型,尤其是在噪聲和 JPEG 壓縮退化類型識別的準確性上。



在零樣本圖像比較推理任務上,Q-Insight 無需額外監督微調,即可準確、細致地分析和比較圖像質量,展示出強大的泛化推理能力。



大腦升級,重塑視頻云技術棧

以多模態畫質理解大模型 Q-insight 作為基石之一,火山引擎視頻云已經圍繞多媒體鏈路搭建起基于大模型的解決方案。



大模型算法能力包含有生成式畫質增強大模型、沉浸音頻大模型、生成式視頻編碼大模型、多模態內容理解大模型等。此外,已有的傳統媒體處理能力也與大模型能力方案形成有機結合與互補,其中包括軟件編解碼 BVC 系列、硬件編碼器、處理增強能力、分析和理解能力等。

通過基于 MLLM 實現的多媒體智能體,可以面向不同復雜的業務場景與用戶需求,做到感知理解、智能決策規劃和輸出算法能力方案。相比傳統依據經驗調控的方案,多媒體智能體具有鏈路更智能、算法效果上限更高,并且更貼近實際業務和人眼感知等優勢。

此外,結合視頻云自研多媒體處理框架 BMF 以及大規模多媒體實驗仿真平臺 VLAB 等工程支持,進一步提高了大模型媒體服務的穩定性和效率,有效降低了部署成本。

超越技術,體驗躍遷

火山視頻云產品正在把用戶從流暢、實時、高清的數字視頻世界帶入更智能、更交互、更沉浸的 AI 視頻世界。這不僅意味著技術的飛躍,更代表著體驗方式的一場變革。

在大模型和生成式 AI 技術的強勁推動下,音視頻處理的底層技術正經歷著深刻的變革。

首先對算力層的要求尤為顯著。生成式 AI 技術大幅降低了視頻生成的門檻,導致視頻數據以驚人速度增長。所以也對計算成本和處理效率提出了嚴峻的挑戰。

在算法層,編解碼、處理、分析等音視頻處理的核心技術,正在與大模型不斷的深度融合。這種融合不僅提升了編解碼效率以及畫質表現,更為用戶帶來了更加優質的視頻體驗。

在框架層,隨著視頻生成大模型和預處理所需的計算需求日益增長,我們需要構建更強大、更靈活的多媒體處理框架,不僅要能夠支持大模型的高效運行,還要能夠滿足日益復雜的音視頻處理需求,以應對生成式 AI 帶來的挑戰。



火山引擎多媒體實驗室是字節跳動旗下的研究團隊,致力于探索多媒體領域的前沿技術,參與國際標準化工作,其眾多創新算法及軟硬件解決方案已經廣泛應用在抖音、西瓜視頻等產品的多媒體業務,并向火山引擎視頻云的企業級客戶提供技術服務。實驗室成立以來,多篇論文入選國際頂會和旗艦期刊,并獲得數項國際級技術賽事冠軍、行業創新獎及最佳論文獎。

火山引擎視頻云,以「體驗」為核心,基于字節跳動億級 DAU 打磨的音視頻技術融合 AI / 大模型技術,打造集視頻直播、企業直播、視頻點播、智能處理、實時音視頻、云游戲、云手機、veImageX 等于一體的一站式音視頻服務,幫助企業端到端提升視頻能力,實現播放體驗、畫質體驗、交互體驗、性能體驗的全面提升與創新。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
再次跟中天說抱歉!“館長”:對中天有一分愧疚,我一直在彌補

再次跟中天說抱歉!“館長”:對中天有一分愧疚,我一直在彌補

海峽導報社
2025-06-14 21:35:02
拉杜卡努:鄭欽文在比賽中更換球鞋和球拍,這不是理想情況

拉杜卡努:鄭欽文在比賽中更換球鞋和球拍,這不是理想情況

懂球帝
2025-06-14 18:09:17
伊朗回擊!哈梅內伊:將徹底摧毀以政權

伊朗回擊!哈梅內伊:將徹底摧毀以政權

觀察者網
2025-06-14 09:01:19
四隊重磅交易,德羅贊加入洛杉磯快船,國王甩掉拉文的毒藥合同

四隊重磅交易,德羅贊加入洛杉磯快船,國王甩掉拉文的毒藥合同

阿雄侃籃球
2025-06-14 23:56:10
特朗普提交其任內首份公開財務披露報告:持股加密貨幣平臺獲超5700萬美元收益,234頁報告有145頁為股票債券投資記錄!

特朗普提交其任內首份公開財務披露報告:持股加密貨幣平臺獲超5700萬美元收益,234頁報告有145頁為股票債券投資記錄!

每日經濟新聞
2025-06-14 14:29:23
日本游戲主機市場正被中國搶奪

日本游戲主機市場正被中國搶奪

海格講
2025-06-12 06:10:04
以色列開始空襲伊朗能源設施,內塔尼亞胡誓言轟炸伊朗每一個角落

以色列開始空襲伊朗能源設施,內塔尼亞胡誓言轟炸伊朗每一個角落

山河路口
2025-06-14 23:54:42
特拉維夫傳出爆炸聲,伊朗稱向以發射“大量”導彈!內塔尼亞胡發表最新聲明!普京分別與伊總統和以總理通電話

特拉維夫傳出爆炸聲,伊朗稱向以發射“大量”導彈!內塔尼亞胡發表最新聲明!普京分別與伊總統和以總理通電話

每日經濟新聞
2025-06-14 07:56:07
工齡41.75年,湖南企業退休,個人賬戶19萬,養老金能領8000嗎?

工齡41.75年,湖南企業退休,個人賬戶19萬,養老金能領8000嗎?

牛鍋巴小釩
2025-06-15 00:46:24
219元,小米剛出的新品我真喜歡!

219元,小米剛出的新品我真喜歡!

手機評測室
2025-06-14 11:49:53
廣州同學聚會吃了16萬6,請客的人付完錢先走,剩下的人卻翻臉了

廣州同學聚會吃了16萬6,請客的人付完錢先走,剩下的人卻翻臉了

詭譎怪談
2025-06-09 08:45:42
Labubu韓國門店大排長龍,警察出動維護秩序!泡泡瑪特決定:中止韓國線下銷售

Labubu韓國門店大排長龍,警察出動維護秩序!泡泡瑪特決定:中止韓國線下銷售

第一財經資訊
2025-06-14 17:43:31
100萬人傷亡背后俄羅斯實際已遭重創

100萬人傷亡背后俄羅斯實際已遭重創

史政先鋒
2025-06-13 10:54:49
伊朗外長:在以色列“暴行”持續之際繼續伊美談判“毫無道理”

伊朗外長:在以色列“暴行”持續之際繼續伊美談判“毫無道理”

新華社
2025-06-15 01:23:02
遼寧廣場舞大媽貼出公告,舞蹈期間禁止他人進入廣場,出事你全責

遼寧廣場舞大媽貼出公告,舞蹈期間禁止他人進入廣場,出事你全責

映射生活的身影
2025-06-14 00:57:32
17歲森碟獨自在機場被偶遇,又寬又壯一身肌肉,駝背玩手機長高了

17歲森碟獨自在機場被偶遇,又寬又壯一身肌肉,駝背玩手機長高了

聯友說娛
2025-06-14 17:11:22
吃定了!業主要求物業費從3元降至1.5元,物業稱購房合同中很明確

吃定了!業主要求物業費從3元降至1.5元,物業稱購房合同中很明確

火山詩話
2025-06-13 15:47:23
3-1爆冷歐洲勁旅!中國男排假扣真傳,上升第3,世聯賽最新積分榜

3-1爆冷歐洲勁旅!中國男排假扣真傳,上升第3,世聯賽最新積分榜

知軒體育
2025-06-14 17:39:07
湖北高校內黑絲短裙妹和富哥四處親密,全校學生瘋狂跟拍到底有什么好看的?!

湖北高校內黑絲短裙妹和富哥四處親密,全校學生瘋狂跟拍到底有什么好看的?!

不二表姐
2025-06-14 21:11:13
印度的脊梁斷了?

印度的脊梁斷了?

科技虎虎
2025-06-13 17:15:11
2025-06-15 02:08:49
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
10640文章數 142338關注度
往期回顧 全部

科技要聞

一輛新車比特斯拉FSD都便宜,全行業陪葬?

頭條要聞

以防長威脅哈梅內伊:若繼續發射導彈 德黑蘭將成火海

頭條要聞

以防長威脅哈梅內伊:若繼續發射導彈 德黑蘭將成火海

體育要聞

約戰天王山,步行者G4輸在了哪?

娛樂要聞

小S迎47歲生日,首個生日沒大S陪伴

財經要聞

樓市權威發聲

汽車要聞

長城為了拿環塔冠軍有多拼?魏建軍在下一盤大棋!

態度原創

本地
時尚
親子
公開課
軍事航空

本地新聞

最近的打工人,都在熬夜看這劇逐幀學習職場小技巧

中年女人少穿黑色和灰色,年輕色穿出減齡效果,看起來嫩十歲

親子要聞

給18個月幼兒灌酒,無論出于什么心態都不該寬恕|新京報快評

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

伊媒:以色列國防部大樓被伊朗導彈擊中

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 又大又粗弄得我出好多水| 色老板精品无码免费视频| 人人妻人人澡人人爽人人dvd| 免费又黄又爽又猛的毛片| 日本黄漫动漫在线观看视频| 久久久久亚洲av成人无码| 熟妇女人妻丰满少妇中文字幕| 日日摸夜夜添夜夜添无码免费视频| 亚洲精品456在线播放| 女同性av片在线观看免费网站| 久久久久久成人毛片免费看| 中文字字幕在线中文无码| av片日韩一区二区三区在线观看| 亚洲综合图色40p| 国产精品网站在线观看免费传媒| 99精品国产99久久久久久97| 国产福利精品一区二区| 乱无码伦视频在线观看| 亚洲精品久久久久一区二区| 久久久久国产精品无码免费看| 国产伦理一区二区| 激情无码人妻又粗又大| 一边吃奶一边摸做爽视频| 日本熟妇色熟妇在线视频播放| 久久精品国产99国产精偷| 精品人妻一区二区三区四区| 亚洲国产精品一区二区www| 美女内射毛片在线看3d| 午夜福利片1000无码免费| 国产在线无码视频一区二区三区| 特级做a爰片毛片免费看108| 国产成人综合亚洲色就色| 欧美老肥熟妇多毛xxxxx| 国产制服丝袜亚洲日本在线| 精品国产一区二区三区av色诱| 久久久噜噜噜久久中文字幕色伊伊| 午夜男女爽爽影院免费视频下载| 欧美成人一区二区三区| 日本乱偷人妻中文字幕| 亚洲 卡通 欧美 制服 中文| 国产日韩综合一区二区性色av|