大香大香伊人在钱线久久,亚洲日韩欧美国产高清αv,日本强伦姧人妻久久影片,亚洲国产成人欧美在线观看

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

視覺(jué)感知驅(qū)動(dòng)的多模態(tài)推理,阿里通義VRAG,定義下一代檢索增強(qiáng)生成

0
分享至



在數(shù)字化時(shí)代,視覺(jué)信息在知識(shí)傳遞和決策支持中的重要性日益凸顯。然而,傳統(tǒng)的檢索增強(qiáng)型生成(RAG)方法在處理視覺(jué)豐富信息時(shí)面臨著諸多挑戰(zhàn)。一方面,傳統(tǒng)的基于文本的方法無(wú)法處理視覺(jué)相關(guān)數(shù)據(jù);另一方面,現(xiàn)有的視覺(jué) RAG 方法受限于定義的固定流程,難以有效激活模型的推理能力。

來(lái)自阿里巴巴通義實(shí)驗(yàn)室的最新研究成果 ——VRAG-RL(Empower Vision-Perception-Based RAG for Visually Rich Information Understanding via Iterative Reasoning with Reinforcement Learning),將強(qiáng)化學(xué)習(xí)算法引入多模態(tài)智能體訓(xùn)練,借助迭代推理和視覺(jué)感知空間,全方位提升視覺(jué)語(yǔ)言模型(VLMs)在檢索、推理和理解視覺(jué)信息方面的能力,為純視覺(jué)檢索增強(qiáng)生成任務(wù)提供有效解決方案,代碼、模型全面開(kāi)源!



  • Paper 地址:arxiv.org/pdf/2505.22019
  • Github 地址:https://github.com/Alibaba-NLP/VRAG

為了解決現(xiàn)有 RAG 方法在處理視覺(jué)豐富文檔時(shí)面臨的挑戰(zhàn),尤其是生成階段推理能力不足的問(wèn)題,我們推出了 VRAG-RL,該框架引入強(qiáng)化學(xué)習(xí),專為視覺(jué)豐富信息復(fù)雜推理量身定制。VRAG-RL 通過(guò)定義視覺(jué)感知?jiǎng)幼骺臻g,使模型能夠從粗到細(xì)地逐步聚焦信息密集區(qū)域,精準(zhǔn)提取關(guān)鍵視覺(jué)信息,從而全方位提升視覺(jué)語(yǔ)言模型(VLMs)在檢索、推理和理解視覺(jué)信息方面的能力。



與此同時(shí),我們注意到現(xiàn)有的方法在將用戶查詢轉(zhuǎn)化為搜索引擎可理解的檢索請(qǐng)求時(shí),常常因無(wú)法精準(zhǔn)表達(dá)需求而難以檢索到相關(guān)信息,往往存在語(yǔ)義偏差或信息缺失的問(wèn)題。這不僅影響了檢索結(jié)果的相關(guān)性,還限制了模型在后續(xù)生成階段的推理能力。為了解決這一問(wèn)題,VRAG-RL 引入了一種創(chuàng)新的檢索機(jī)制,通過(guò)結(jié)合視覺(jué)感知?jiǎng)幼骱蛷?qiáng)化學(xué)習(xí),使模型能夠更有效地與搜索引擎進(jìn)行交互。這種機(jī)制不僅能夠幫助模型更精準(zhǔn)地表達(dá)檢索需求,還能夠在檢索過(guò)程中動(dòng)態(tài)調(diào)整檢索策略,從而顯著提升檢索效率和結(jié)果的相關(guān)性。

重定義感知行動(dòng)空間

視覺(jué)仿生思考新范式

傳統(tǒng) RAG 方法在處理視覺(jué)信息時(shí),往往采用固定的檢索 - 生成流程,即先通過(guò)搜索引擎檢索相關(guān)信息,然后直接生成答案。這種固定流程忽略了視覺(jué)信息的獨(dú)特性,無(wú)法充分利用視覺(jué)數(shù)據(jù)中的豐富細(xì)節(jié),導(dǎo)致推理能力受限。



相比之下,VRAG-RL 徹底革新了傳統(tǒng)的檢索生成范式,引入了多樣化的視覺(jué)感知?jiǎng)幼鳎渲邪硕喾N視覺(jué)感知?jiǎng)幼鳎鐓^(qū)域選擇、裁剪、縮放等。這些動(dòng)作使 VLMs 能夠從粗粒度到細(xì)粒度逐步聚焦信息密集區(qū)域,精準(zhǔn)提取關(guān)鍵視覺(jué)信息。例如,在處理復(fù)雜的圖表或布局時(shí),模型可以先從整體圖像中提取大致信息,然后逐步聚焦到信息密集的區(qū)域,通過(guò)裁剪和縮放操作,獲取更清晰、更詳細(xì)的視覺(jué)信息。這種從粗粒度到細(xì)粒度的感知方式,不僅提高了模型對(duì)視覺(jué)信息的理解能力,還顯著提升了檢索效率,使模型能夠更快速地定位到與問(wèn)題相關(guān)的圖像內(nèi)容。



VRAG-RL 采用了多專家采樣策略構(gòu)建訓(xùn)練數(shù)據(jù),大規(guī)模模型負(fù)責(zé)確定整體的推理路徑,而專家模型則在大規(guī)模模型的指導(dǎo)下,對(duì)圖像中的關(guān)鍵區(qū)域進(jìn)行精確標(biāo)注,結(jié)合大規(guī)模模型的推理能力和專家模型的精確標(biāo)注能力,模型能夠在訓(xùn)練過(guò)程中學(xué)習(xí)到更有效的視覺(jué)感知策略,顯著提升了模型在實(shí)際應(yīng)用中的表現(xiàn)。

檢索與推理協(xié)同優(yōu)化

效率與深度雙重提升

VRAG-RL 的細(xì)粒度獎(jiǎng)勵(lì)機(jī)制將檢索效率、模式一致性與生成質(zhì)量三方面因素融合,引導(dǎo)模型在與搜索引擎的交互中不斷優(yōu)化其檢索與推理路徑。

  • 檢索效率獎(jiǎng)勵(lì) :借鑒信息檢索領(lǐng)域廣泛使用的 NDCG(Normalized Discounted Cumulative Gain)指標(biāo),激勵(lì)模型優(yōu)先檢索相關(guān)度高的圖像內(nèi)容,快速構(gòu)建高質(zhì)量上下文;
  • 模式一致性獎(jiǎng)勵(lì) :確保模型遵循預(yù)設(shè)的推理邏輯路徑,避免因模式偏差導(dǎo)致生成結(jié)果偏離任務(wù)目標(biāo);
  • 生成質(zhì)量獎(jiǎng)勵(lì) :通過(guò)評(píng)估模型對(duì)生成答案的質(zhì)量打分,引導(dǎo)模型輸出更準(zhǔn)確、連貫的答案。

這種多維度獎(jiǎng)勵(lì)機(jī)制實(shí)現(xiàn)了檢索與推理的雙向驅(qū)動(dòng)——高效的檢索為深入推理提供支撐,而推理反饋又進(jìn)一步指導(dǎo)模型優(yōu)化檢索策略,形成閉環(huán)優(yōu)化。



強(qiáng)化學(xué)習(xí)賦能多模態(tài)智能體訓(xùn)練

VRAG-RL 基于強(qiáng)化學(xué)習(xí)的訓(xùn)練策略,引入業(yè)界領(lǐng)先的 GRPO 算法,讓視覺(jué)語(yǔ)言模型(VLMs)在與搜索引擎的多輪交互中,持續(xù)優(yōu)化檢索與推理能力。同時(shí),通過(guò)本地部署搜索引擎模擬真實(shí)世界應(yīng)用場(chǎng)景,實(shí)現(xiàn)搜索引擎調(diào)用零成本,模型訓(xùn)練更加高效。這種訓(xùn)練方式,不僅提升了模型的泛化能力,使其在不同領(lǐng)域、不同類型的視覺(jué)任務(wù)中都能表現(xiàn)出色,為多模態(tài)智能體的訓(xùn)練提供全新的解決方案。



實(shí)驗(yàn)分析

VRAG-RL 在各個(gè)基準(zhǔn)數(shù)據(jù)集上均取得了顯著優(yōu)于現(xiàn)有方法的性能,涵蓋了從單跳到多跳推理、從文本到圖表和布局等多種復(fù)雜的視覺(jué)和語(yǔ)言任務(wù)類型。實(shí)驗(yàn)結(jié)果表明,VRAG-RL 在處理視覺(jué)豐富信息時(shí)具有顯著的優(yōu)勢(shì),能夠更有效地進(jìn)行檢索、推理和生成高質(zhì)量的答案。無(wú)論是在傳統(tǒng)的 prompt-based 方法(如 Vanilla RAG 和 ReAct RAG)還是在基于強(qiáng)化學(xué)習(xí)的方法(如 Search-R1)上,VRAG-RL 都展現(xiàn)出了顯著的性能提升。



在傳統(tǒng)的 RAG 方法中,模型通常在進(jìn)行一次或多次檢索后直接生成答案。然而,在處理復(fù)雜的視覺(jué)任務(wù)時(shí),這種方法往往表現(xiàn)不佳,因?yàn)樗狈?duì)視覺(jué)信息的深入理解和多輪推理能力。

相比之下,我們的 VRAG-RL 方法支持多輪交互。具體來(lái)說(shuō),通過(guò)定義視覺(jué)感知?jiǎng)幼骺臻g,VRAG-RL 能夠在推理階段逐步聚焦于信息密集區(qū)域,從而實(shí)現(xiàn)從粗到細(xì)的信息獲取。同時(shí),該方法通過(guò)優(yōu)化檢索效率和推理路徑,在保持高效率的同時(shí),顯著提升了模型在視覺(jué)任務(wù)上的性能。



未來(lái)展望

開(kāi)啟視覺(jué)感知驅(qū)動(dòng)多模態(tài)推理的新時(shí)代

VRAG-RL 為視覺(jué)豐富信息的檢索增強(qiáng)生成任務(wù)開(kāi)辟了新的道路。未來(lái),研究團(tuán)隊(duì)計(jì)劃進(jìn)一步拓展模型的能力,引入更多模仿人類處理復(fù)雜信息的動(dòng)作,使模型能夠更深入地進(jìn)行思考。同時(shí),團(tuán)隊(duì)還將致力于減少模型的幻覺(jué)現(xiàn)象,通過(guò)引入更先進(jìn)的模型架構(gòu)和訓(xùn)練方法,進(jìn)一步提高框架的準(zhǔn)確性和可靠性,推動(dòng)視覺(jué)語(yǔ)言模型在更多實(shí)際應(yīng)用場(chǎng)景中的落地與發(fā)展。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
以色列軍方:已確認(rèn)伊朗在生產(chǎn)核彈的武器零部件方面取得具體進(jìn)展,表明伊朗政權(quán)正在接近無(wú)法回頭的地步

以色列軍方:已確認(rèn)伊朗在生產(chǎn)核彈的武器零部件方面取得具體進(jìn)展,表明伊朗政權(quán)正在接近無(wú)法回頭的地步

和訊網(wǎng)
2025-06-13 12:01:03
又現(xiàn)迷之操作,華為Pura80標(biāo)準(zhǔn)版手機(jī)接口竟倒退成USB 2.0

又現(xiàn)迷之操作,華為Pura80標(biāo)準(zhǔn)版手機(jī)接口竟倒退成USB 2.0

熱點(diǎn)科技
2025-06-13 18:36:36
吳京太難了?籌備了10年的《鏢人》,還沒(méi)上映,女主就塌房了!

吳京太難了?籌備了10年的《鏢人》,還沒(méi)上映,女主就塌房了!

動(dòng)物奇奇怪怪
2025-06-13 03:07:33
恐怖如斯!今年季后賽福斯特執(zhí)裁的比賽 步行者0-5 雷霆4-0

恐怖如斯!今年季后賽福斯特執(zhí)裁的比賽 步行者0-5 雷霆4-0

直播吧
2025-06-14 11:49:26
顛覆認(rèn)知!男優(yōu)嚴(yán)選「最想合作」女優(yōu)紅黑榜揭曉 (2)

顛覆認(rèn)知!男優(yōu)嚴(yán)選「最想合作」女優(yōu)紅黑榜揭曉 (2)

TVB的四小花
2025-06-15 05:56:17
鄭州小米女車主連撞16車后續(xù):正臉照曝光,邁巴赫車主欲哭無(wú)淚

鄭州小米女車主連撞16車后續(xù):正臉照曝光,邁巴赫車主欲哭無(wú)淚

chen7
2025-06-14 23:35:57
身處異國(guó)他鄉(xiāng)的陪讀媽媽,為解決兒子青春期的困擾,竟決定這么做

身處異國(guó)他鄉(xiāng)的陪讀媽媽,為解決兒子青春期的困擾,竟決定這么做

南山青松
2025-06-11 17:01:44
香港歌手60大壽席開(kāi)15桌,鄺美云穿西裝好端莊,同框袁潔瑩沒(méi)交流

香港歌手60大壽席開(kāi)15桌,鄺美云穿西裝好端莊,同框袁潔瑩沒(méi)交流

涵豆說(shuō)娛
2025-06-14 17:14:41
我出差巴基斯坦,意外看到穆斯林女人面紗下的秘密,她給我兩個(gè)選擇

我出差巴基斯坦,意外看到穆斯林女人面紗下的秘密,她給我兩個(gè)選擇

紅豆講堂
2025-05-28 14:34:55
中產(chǎn)面臨的困境:正在被悄悄清算

中產(chǎn)面臨的困境:正在被悄悄清算

流蘇晚晴
2025-06-12 20:15:28
新四軍宣傳部長(zhǎng)57歲任上海市委書(shū)記,1983年被開(kāi)除黨籍

新四軍宣傳部長(zhǎng)57歲任上海市委書(shū)記,1983年被開(kāi)除黨籍

樂(lè)趣紀(jì)史
2025-06-14 19:37:01
7月起,我國(guó)將明令禁止收取這5種物業(yè)費(fèi),業(yè)主們還需早知道!

7月起,我國(guó)將明令禁止收取這5種物業(yè)費(fèi),業(yè)主們還需早知道!

詩(shī)詞中國(guó)
2025-06-14 14:09:57
廣州同學(xué)聚會(huì)吃了16萬(wàn)6,請(qǐng)客的人付完錢(qián)先走,剩下的人卻翻臉了

廣州同學(xué)聚會(huì)吃了16萬(wàn)6,請(qǐng)客的人付完錢(qián)先走,剩下的人卻翻臉了

詭譎怪談
2025-06-09 08:45:42
寧波樓市捷雷不及掩耳,寧波樓市鄞州區(qū)房?jī)r(jià)從24000元跌至23000元

寧波樓市捷雷不及掩耳,寧波樓市鄞州區(qū)房?jī)r(jià)從24000元跌至23000元

有事問(wèn)彭叔
2025-06-13 21:48:39
喪鐘已敲響,新能源汽車金融泡沫已到崩的前夜?

喪鐘已敲響,新能源汽車金融泡沫已到崩的前夜?

米筐投資
2025-05-30 07:18:09
俄軍再次擊落自己戰(zhàn)機(jī),伊朗只是俄烏戰(zhàn)爭(zhēng)一枚棋子

俄軍再次擊落自己戰(zhàn)機(jī),伊朗只是俄烏戰(zhàn)爭(zhēng)一枚棋子

史政先鋒
2025-06-14 19:32:21
只有女人,沒(méi)一個(gè)男性的部落,她們?cè)趺捶毖芎蟠啃哂谡f(shuō)出口!

只有女人,沒(méi)一個(gè)男性的部落,她們?cè)趺捶毖芎蟠啃哂谡f(shuō)出口!

大千世界觀
2025-06-13 19:37:58
世界最強(qiáng)棋士戰(zhàn)決賽,申真谞如果輸了,韓國(guó)棋院恐為天下笑

世界最強(qiáng)棋士戰(zhàn)決賽,申真谞如果輸了,韓國(guó)棋院恐為天下笑

月滿大江流
2025-06-14 20:52:21
他是化學(xué)博士,也是格斗冠軍!一拳把史泰龍打進(jìn)ICU的“學(xué)霸猛男”,晚年患癌卻讓死神敗退!

他是化學(xué)博士,也是格斗冠軍!一拳把史泰龍打進(jìn)ICU的“學(xué)霸猛男”,晚年患癌卻讓死神敗退!

跑步心情
2025-06-14 18:48:12
惡魔醫(yī)生劉翔峰,罪行累累,喪心病狂!

惡魔醫(yī)生劉翔峰,罪行累累,喪心病狂!

燕梳樓頻道
2025-06-12 22:49:14
2025-06-15 08:35:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
10640文章數(shù) 142338關(guān)注度
往期回顧 全部

科技要聞

一輛新車比特斯拉FSD都便宜,全行業(yè)陪葬?

頭條要聞

伊朗數(shù)小時(shí)內(nèi)或再襲擊 以色列進(jìn)入"前所未有緊急狀態(tài)"

頭條要聞

伊朗數(shù)小時(shí)內(nèi)或再襲擊 以色列進(jìn)入"前所未有緊急狀態(tài)"

體育要聞

約戰(zhàn)天王山,步行者G4輸在了哪?

娛樂(lè)要聞

小S迎47歲生日,首個(gè)生日沒(méi)大S陪伴

財(cái)經(jīng)要聞

樓市權(quán)威發(fā)聲

汽車要聞

長(zhǎng)城為了拿環(huán)塔冠軍有多拼?魏建軍在下一盤(pán)大棋!

態(tài)度原創(chuàng)

手機(jī)
本地
房產(chǎn)
教育
公開(kāi)課

手機(jī)要聞

蘋(píng)果發(fā)布iOS 26測(cè)試版更新,iPhone XS已被列為“過(guò)時(shí)產(chǎn)品”

本地新聞

最近的打工人,都在熬夜看這劇逐幀學(xué)習(xí)職場(chǎng)小技巧

房產(chǎn)要聞

又一城購(gòu)房補(bǔ)貼!買房就發(fā)錢(qián),正在海南樓市瘋狂擴(kuò)散!

教育要聞

分?jǐn)?shù)之外,孝道滿分:一場(chǎng)高考后的溫情禮贊

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 国产成人无码a区视频| 2020亚洲欧美国产日韩| 久久久噜噜噜久久久精品| 久久中文字幕人妻丝袜| 国产精品无码一区二区三区免费| 久久99精品久久久久久噜噜| 日日av拍夜夜添久久免费| 日韩一区二区三区射精-百度| 永久免费的av在线电影网| 久久精品国产第一区二区三区| 国产人妻鲁鲁一区二区| 中文无码天天av天天爽| 欧美日韩一区二区免费视频| 久久婷婷成人综合色综合| 99久久精品免费看国产一区二区三区| 色妺妺在线视频| 国产精品久久人妻无码网站蜜臀| 国外av片免费看一区二区三区| 精品国偷自产在线| 国产av天堂亚洲国产av下载| 国产三区在线成人av| 欧美在线看片a免费观看| 久久久亚洲欧洲日产国码aⅴ| 国产午夜精品一区二区三区漫画| 国产亚洲综合区成人国产系列| 国产国产人免费人成免费视频| 国产亚洲欧洲aⅴ综合一区| 伊人亚洲综合网色av另类| 99国产精品久久99久久久| 成人区精品一区二区婷婷| 日日鲁鲁鲁夜夜爽爽狠狠视频97| 亚洲av无码一区二区二三区软件| 欧美精品亚洲精品日韩传电影| 无遮挡h肉动漫在线观看| 亚洲妇女自偷自偷图片| 久久综合九色欧美综合狠狠| 久久天天拍天天爱天天躁| 久久久久久人妻一区二区三区| 亚洲成av人片在线观l看福利1| 日本五月天婷久久网站| 扒开双腿猛进入喷水高潮叫声|