機器之心報道
機器之心編輯部
Q-Insight不再簡單地讓模型擬合人眼打分,而是將評分視作一種引導信號,促使模型深度思考圖像質量的本質原因。有了會思考的“大腦”,視頻云技術棧不僅得以重塑也讓用戶體驗有了躍遷。
從 GPT-4o 吉卜力風、即夢的 3D 動畫、再到蘋果 Vision Pro,AI 視覺創作正迎來生產力大爆炸。一個重要問題隨之浮現:如何評估機器生成的畫質符合人眼審美?人眼能瞬間辨別圖像優劣,但教會機器理解「好看」卻充滿挑戰。
視覺革命,呼喚新的畫質「評估師」
作為人們日常內容消費的核心載體,音視頻在過去幾十年間經歷了從低分辨率、有限色彩到超高清沉浸體驗的技術躍遷。這場視覺革命的背后,音視頻相關技術始終是其中的技術支柱,支撐著內容從生產、處理、編碼、傳輸到消費的全鏈路運作。
隨著生成式人工智能與多模態大模型的發展,用戶視頻體驗有了深刻變革。
首先,內容生產將從 UGC/PGC 發展到 AIGC,伴隨視頻生成模型與智能工具的普及,極大的降低了視頻生產的門檻。同時,AIGC 也推動「音視頻」成為新的「通用」語言,為用戶提供了更多元、更生動的交流方式。
其次,得益于 AI 的深度學習能力及其自我進化的特性,交互方式正從以往的人機交互、人人交互,邁向人與 AI 融合交互的新時代。
最后,用戶的交互空間也在從 2D、3D、VR,逐步拓展到虛實融合的全新空間,這帶來了更沉浸的交互體驗,讓實時互動更加「身臨其境」。
面對多模態大模型對視頻生態以及技術架構影響,視頻云作為底層基礎設施正面臨機遇和挑戰。
Q-Insight:深度思考,「看懂」畫質
在音視頻鏈路中,采集、壓縮、處理、傳輸、播放等環節大多都基于一個核心問題展開,即人眼的畫質感知。多模態大模型的快速發展為新時代的音視頻技術帶來了新的機遇,面對人眼感知的畫質理解提供了一種全新的解決方案。
以往的畫質理解的方法主要分為兩類:(1)評分型方法,這類方法通常只能提供單一的數值評分,缺乏明確的解釋性,難以深入理解圖像質量背后的原因;(2)描述型方法,這類方法嚴重依賴于大規模文本描述數據進行監督微調,對標注數據的需求巨大,泛化能力和靈活性不足。
針對上述問題,北京大學與火山引擎多媒體實驗室的研究人員聯合提出了基于強化學習訓練的多模態大模型圖像畫質理解方案 Q-Insight。
論文鏈接:https://arxiv.org/pdf/2503.22679
與以往方法不同的是,Q-Insight 不再簡單地讓模型擬合人眼打分,而是將評分視作一種引導信號,促使模型深度思考圖像質量的本質原因。通過這種創新思路,Q-Insight 在質量評分、退化感知、多圖比較、原因解釋等多個任務上均達到業界領先水平,具備出色的準確性和泛化推理能力,并且不依賴大量高成本的文本數據標注。
Q-Insight 首次將強化學習引入圖像質量評估任務,創造性地運用了「群組相對策略優化」(GRPO)算法,不再依賴大量的文本監督標注,而是挖掘大模型自身的推理潛力,實現對圖像質量的深度理解。如圖所示,Q-Insight 不僅輸出單純的得分、退化類型或者比較結果,而是提供了從多個角度綜合評估畫質的詳細推理過程。
實驗結果充分驗證了 Q-Insight 在圖像質量評分、退化檢測和零樣本推理任務中的卓越表現:在圖像質量評分任務上,Q-Insight 在多個公開數據集上的表現均超過當前最先進的方法,特別是在域外數據上的泛化能力突出,并能夠提供完整詳細的推理過程。
在退化感知任務上,Q-Insight 的表現顯著優于現有的退化感知模型,尤其是在噪聲和 JPEG 壓縮退化類型識別的準確性上。
在零樣本圖像比較推理任務上,Q-Insight 無需額外監督微調,即可準確、細致地分析和比較圖像質量,展示出強大的泛化推理能力。
大腦升級,重塑視頻云技術棧
以多模態畫質理解大模型 Q-insight 作為基石之一,火山引擎視頻云已經圍繞多媒體鏈路搭建起基于大模型的解決方案。
大模型算法能力包含有生成式畫質增強大模型、沉浸音頻大模型、生成式視頻編碼大模型、多模態內容理解大模型等。此外,已有的傳統媒體處理能力也與大模型能力方案形成有機結合與互補,其中包括軟件編解碼 BVC 系列、硬件編碼器、處理增強能力、分析和理解能力等。
通過基于 MLLM 實現的多媒體智能體,可以面向不同復雜的業務場景與用戶需求,做到感知理解、智能決策規劃和輸出算法能力方案。相比傳統依據經驗調控的方案,多媒體智能體具有鏈路更智能、算法效果上限更高,并且更貼近實際業務和人眼感知等優勢。
此外,結合視頻云自研多媒體處理框架 BMF 以及大規模多媒體實驗仿真平臺 VLAB 等工程支持,進一步提高了大模型媒體服務的穩定性和效率,有效降低了部署成本。
超越技術,體驗躍遷
火山視頻云產品正在把用戶從流暢、實時、高清的數字視頻世界帶入更智能、更交互、更沉浸的 AI 視頻世界。這不僅意味著技術的飛躍,更代表著體驗方式的一場變革。
在大模型和生成式 AI 技術的強勁推動下,音視頻處理的底層技術正經歷著深刻的變革。
首先對算力層的要求尤為顯著。生成式 AI 技術大幅降低了視頻生成的門檻,導致視頻數據以驚人速度增長。所以也對計算成本和處理效率提出了嚴峻的挑戰。
在算法層,編解碼、處理、分析等音視頻處理的核心技術,正在與大模型不斷的深度融合。這種融合不僅提升了編解碼效率以及畫質表現,更為用戶帶來了更加優質的視頻體驗。
在框架層,隨著視頻生成大模型和預處理所需的計算需求日益增長,我們需要構建更強大、更靈活的多媒體處理框架,不僅要能夠支持大模型的高效運行,還要能夠滿足日益復雜的音視頻處理需求,以應對生成式 AI 帶來的挑戰。
火山引擎多媒體實驗室是字節跳動旗下的研究團隊,致力于探索多媒體領域的前沿技術,參與國際標準化工作,其眾多創新算法及軟硬件解決方案已經廣泛應用在抖音、西瓜視頻等產品的多媒體業務,并向火山引擎視頻云的企業級客戶提供技術服務。實驗室成立以來,多篇論文入選國際頂會和旗艦期刊,并獲得數項國際級技術賽事冠軍、行業創新獎及最佳論文獎。
火山引擎視頻云,以「體驗」為核心,基于字節跳動億級 DAU 打磨的音視頻技術融合 AI / 大模型技術,打造集視頻直播、企業直播、視頻點播、智能處理、實時音視頻、云游戲、云手機、veImageX 等于一體的一站式音視頻服務,幫助企業端到端提升視頻能力,實現播放體驗、畫質體驗、交互體驗、性能體驗的全面提升與創新。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.