大香大香伊人在钱线久久,亚洲日韩欧美国产高清αv,日本强伦姧人妻久久影片,亚洲国产成人欧美在线观看

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

讓模型像o3一樣動手搜索寫代碼!Visual ARFT實(shí)現(xiàn)多模態(tài)智能體能力

0
分享至




在大型推理模型(例如 OpenAI-o3)中,一個關(guān)鍵的發(fā)展趨勢是讓模型具備原生的智能體能力。具體來說,就是讓模型能夠調(diào)用外部工具(如網(wǎng)頁瀏覽器)進(jìn)行搜索,或編寫/執(zhí)行代碼以操控圖像,從而實(shí)現(xiàn)「圖像中的思考」。

盡管開源研究社區(qū)在純文本的智能體能力方面(比如函數(shù)調(diào)用和工具集成)已取得顯著進(jìn)展,但涉及圖像理解與操作的多模態(tài)智能體能力及其對應(yīng)的評估體系仍處于起步階段。

因此,上海交大、上海 AI Lab、港中文、武漢大學(xué)的研究團(tuán)隊(duì)最新推出的多模態(tài)智能體訓(xùn)練方法Visual-ARFT(Visual Agentic Reinforcement Fine-Tuning),專為賦予視覺語言模型(LVLMs)以「工具智能體」能力而設(shè)計。

并且,Visual-ARFT 項(xiàng)目已全面開源(包含訓(xùn)練、評測代碼,數(shù)據(jù)和模型)。如果你對多模態(tài)模型、強(qiáng)化學(xué)習(xí)、視覺語言理解感興趣,不妨一起來探索更多可能性吧!



  • 論文標(biāo)題:Visual Agentic Reinforcement Fine-Tuning
  • arXiv 地址: https://arxiv.org/pdf/2505.14246
  • 代碼地址: https://github.com/Liuziyu77/Visual-RFT/tree/main/Visual-ARFT

Visual-ARFT 讓模型不僅能看圖、能理解,還能「動腦推理、動手操作」,主要包括以下三個方面的核心能力:

  • 模型能夠自動調(diào)用搜索引擎查資料或者編寫并執(zhí)行 Python 代碼處理圖像;
  • 面對復(fù)雜任務(wù),能夠自主拆解問題、規(guī)劃步驟、調(diào)用合適工具完成任務(wù);
  • 支持多步推理、多模態(tài)輸入,具備強(qiáng)大的跨模態(tài)泛化能力!

如圖 1 所示,本文的方法編寫并執(zhí)行 Python 代碼以精準(zhǔn)讀取圖像中特定區(qū)域的文本(上圖),或者通過互聯(lián)網(wǎng)搜索回答多模態(tài)多跳問題(下圖)。



圖 1. 視覺智能體強(qiáng)化微調(diào)(Visual Agentic Reinforcement Fine-Tuning,簡稱 Visual-ARFT)在執(zhí)行復(fù)雜的多模態(tài)推理任務(wù)中展現(xiàn)出顯著優(yōu)勢,例如:(上圖)編寫并執(zhí)行 Python 代碼以精準(zhǔn)讀取圖像中特定區(qū)域的文本,以及(下圖)通過互聯(lián)網(wǎng)搜索回答多跳問題。

同時,為了評估模型的工具調(diào)用和多模態(tài)推理能力,團(tuán)隊(duì)構(gòu)建了智能體評測基準(zhǔn)MAT-Bench (Multimodal Agentic Tool Bench)。測試結(jié)果顯示,Visual-ARFT 在多個子任務(wù)中全面超越 GPT-4o,通過調(diào)用工具 ——「寫代碼 + 查資料」,展現(xiàn)出了完成復(fù)雜多模態(tài)視覺任務(wù)的強(qiáng)大潛力。

方法概覽

Visual-ARFT 基于強(qiáng)化微調(diào)的訓(xùn)練策略,使用 GRPO 的算法來更新模型權(quán)重。團(tuán)隊(duì)針對多模態(tài)智能體完成任務(wù)的流程,對 LVLM 的多步工具調(diào)用和問題回答設(shè)計了 rule-based verifiable reward。通過簡單高效的 reward 設(shè)計,驅(qū)動模型自主探索工具的使用方法和思考模式。

團(tuán)隊(duì)在訓(xùn)練中使用幾十到最多 1.2k 的訓(xùn)練數(shù)據(jù),通過少量數(shù)據(jù)實(shí)現(xiàn)了對模型的多模態(tài)智能體能力的訓(xùn)練。



圖 2. Visual-ARFT 框圖。主要針對 Agentic Search 和 Agentic Coding 兩類任務(wù)的多步推理和工具調(diào)用能力進(jìn)行優(yōu)化。

Visual-ARFT 針對以下兩類高難度任務(wù)場景進(jìn)行強(qiáng)化訓(xùn)練:

  • Agentic Search:模型面對多模態(tài)的多跳復(fù)雜問題,先對視覺信息進(jìn)行分析和推理,然后能夠主動進(jìn)行任務(wù)分解、規(guī)劃信息檢索路徑,通過調(diào)用搜索引擎獲取外部知識并整合作答。
  • Agentic Coding:模型面對模糊、旋轉(zhuǎn)、曝光過強(qiáng)等復(fù)雜圖像,能主動生成 Python 代碼完成圖像修復(fù),或剪裁圖像,提取關(guān)鍵區(qū)域,并據(jù)此完成視覺問答。

在這一過程中,模型并非簡單輸出結(jié)果,而是具備完整的推理結(jié)構(gòu):



MAT 基準(zhǔn)

團(tuán)隊(duì)發(fā)布了全新的多模態(tài)智能體評測基準(zhǔn):MAT(Multimodal Agentic Tool Bench),專門評估多模態(tài)工具調(diào)用能力:

  • MAT-Search:包含 150 道多跳視覺問答任務(wù),人工標(biāo)注 + 搜索推理;
  • MAT-Coding:包含 200 道復(fù)雜圖像問答任務(wù)。模型可以直接作答或通過調(diào)用代碼工具處理圖像,輔助作答。

這一基準(zhǔn)填補(bǔ)了當(dāng)前開源模型在「多模態(tài)智能體以及工具調(diào)用」方面的評估空白。



圖 3. MAT 數(shù)據(jù)標(biāo)注過程。MAT-Search 采用人工標(biāo)注方法構(gòu)建多模態(tài)多跳推理 VQA 數(shù)據(jù),MAT-Coding 采用自動化流程構(gòu)造針對 Agentic Coding 任務(wù)的 VQA 數(shù)據(jù)。

Visual-ARFT 實(shí)驗(yàn)結(jié)果

團(tuán)隊(duì)基于 Qwen2.5-VL 模型在 MAT 上對本文方法進(jìn)行了測試。結(jié)果顯示,無論在 MAT-Search 還是在 MAT-Coding 上,本文方法都較 baseline 有了顯著的提升,并擊敗了 GPT-4o 模型。

相較于 baseline 模型直接推理的方式,本文方法通過讓 LVLM 學(xué)會推理與調(diào)用工具,在解決復(fù)雜的多模態(tài)任務(wù)時,更加的得心應(yīng)手。此外,團(tuán)隊(duì)觀察到 OpenAI-o3 模型在一眾開源閉源中取得了遙遙領(lǐng)先的性能,尤其是在 MAT-Coding 上,憑借其多模態(tài)推理和工具調(diào)用能力,斷層式超越了 GPT-4o 模型。



表 1. MAT 測試結(jié)果。 Visual-ARFT 相較 baseline 取得了顯著性能提升,擊敗 GPT-4o。開閉源模型距離 OpenAI-o3 模型存在較大性能差距。

為了測試本文方法的泛化能力,團(tuán)隊(duì)選取了 4 個 Out of Domain 的傳統(tǒng) MultihopQA Benchmark 來測試他們的模型,包括 2wikimlutihopQA,HotpotQA,MuSiQue 和 Bamboogle。

結(jié)果顯示基于 Visual-ARFT 的 Qwen2.5-VL 模型雖然僅僅使用幾十條數(shù)據(jù)進(jìn)行訓(xùn)練,但是模型獲得在這些多跳推理數(shù)據(jù)集上展現(xiàn)出了顯著的性能提升,并擊敗了其他基于強(qiáng)化學(xué)習(xí)的方法。



表 2. 傳統(tǒng) MultihopQA 測試結(jié)果。團(tuán)隊(duì)在 Out of Domain 的多個 multihopQA 上測試了本文方法,展現(xiàn)出 Visual-ARFT 的強(qiáng)大泛化能力。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
蘇林醒了,卻不是因?yàn)槊绹菫蹩颂m的下場

蘇林醒了,卻不是因?yàn)槊绹菫蹩颂m的下場

科技虎虎
2025-06-11 11:31:35
高圓圓雖然很漂亮,但到這個年齡還是少穿這種露肉的衣服好。

高圓圓雖然很漂亮,但到這個年齡還是少穿這種露肉的衣服好。

TVB的四小花
2025-06-12 10:14:51
以色列開始斬首伊朗最高領(lǐng)袖,伊朗稱擊落3架F35

以色列開始斬首伊朗最高領(lǐng)袖,伊朗稱擊落3架F35

史政先鋒
2025-06-14 12:44:59
這次破案了,以色列斬首六大核科學(xué)家:伊朗終于知道是誰出賣情報

這次破案了,以色列斬首六大核科學(xué)家:伊朗終于知道是誰出賣情報

帥先工場
2025-06-14 20:40:00
印度男子攢錢6年帶上妻兒4人飛往倫敦定居,客機(jī)起飛幾分鐘后墜毀在地

印度男子攢錢6年帶上妻兒4人飛往倫敦定居,客機(jī)起飛幾分鐘后墜毀在地

可達(dá)鴨面面觀
2025-06-13 08:57:43
菲律賓和廣東同為1億多人口,菲律賓創(chuàng)造3.3萬億,廣東是多少?

菲律賓和廣東同為1億多人口,菲律賓創(chuàng)造3.3萬億,廣東是多少?

快看張同學(xué)
2025-06-13 12:40:02
上影節(jié)紅毯:倪妮眾星捧月,章子怡低調(diào)楊冪優(yōu)雅,劉德華散發(fā)魅力

上影節(jié)紅毯:倪妮眾星捧月,章子怡低調(diào)楊冪優(yōu)雅,劉德華散發(fā)魅力

巴塞電影
2025-06-14 20:59:24
美國:兩場“大戲”即將同時上場!

美國:兩場“大戲”即將同時上場!

參考消息
2025-06-14 21:59:11
中共中央批準(zhǔn):陳杰同志任上海市委常委

中共中央批準(zhǔn):陳杰同志任上海市委常委

新民晚報
2025-06-13 22:22:54
前田浩二:1-2的比分是無法接受的,對方很難打穿我們的防守

前田浩二:1-2的比分是無法接受的,對方很難打穿我們的防守

懂球帝
2025-06-15 00:34:43
上海證券交易所:2023年僅3.2%人口直持,0.34%持百萬以上

上海證券交易所:2023年僅3.2%人口直持,0.34%持百萬以上

和訊網(wǎng)
2025-06-14 18:25:29
鬧掰阿斯:巴薩想簽離奇離隊(duì)的16歲小將 波爾圖威脅全面斷交

鬧掰阿斯:巴薩想簽離奇離隊(duì)的16歲小將 波爾圖威脅全面斷交

直播吧
2025-06-14 13:57:21
特權(quán)高墻下的冷漠:解析伊朗民眾對高層遇刺的沉默邏輯

特權(quán)高墻下的冷漠:解析伊朗民眾對高層遇刺的沉默邏輯

步論天下事
2025-06-14 20:17:14
速看!股市突傳大事件:致歐美股市下跌!下周A股行情預(yù)測

速看!股市突傳大事件:致歐美股市下跌!下周A股行情預(yù)測

虎哥閑聊
2025-06-14 12:35:56
鄭欽文無緣決賽!好消息:世界排名首進(jìn)TOP4

鄭欽文無緣決賽!好消息:世界排名首進(jìn)TOP4

湖報體育
2025-06-15 00:44:28
“大尺度”女星的瓜!

“大尺度”女星的瓜!

文刀萬
2025-05-23 06:05:02
中國最先倒下的13家電器公司,都曾是家喻戶曉的著名企業(yè)

中國最先倒下的13家電器公司,都曾是家喻戶曉的著名企業(yè)

小蜜情感說
2025-06-05 09:27:01
瑞典決定打擊俄影子艦隊(duì),韃靼斯坦抗議征兵,吉爾吉斯斯坦拆雕像

瑞典決定打擊俄影子艦隊(duì),韃靼斯坦抗議征兵,吉爾吉斯斯坦拆雕像

桑未落
2025-06-09 12:26:18
這次,高調(diào)官宣新戀情的梁洛施,終究沒給涼薄的李澤楷留一絲體面

這次,高調(diào)官宣新戀情的梁洛施,終究沒給涼薄的李澤楷留一絲體面

山河月明史
2025-06-13 17:22:30
楊穎被經(jīng)紀(jì)人當(dāng)街訓(xùn)罵照曝光!自費(fèi)租房面試找工作,吃地攤無人識

楊穎被經(jīng)紀(jì)人當(dāng)街訓(xùn)罵照曝光!自費(fèi)租房面試找工作,吃地攤無人識

史書無明
2025-05-28 21:51:52
2025-06-15 02:28:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
10640文章數(shù) 142338關(guān)注度
往期回顧 全部

科技要聞

一輛新車比特斯拉FSD都便宜,全行業(yè)陪葬?

頭條要聞

以防長威脅哈梅內(nèi)伊:若繼續(xù)發(fā)射導(dǎo)彈 德黑蘭將成火海

頭條要聞

以防長威脅哈梅內(nèi)伊:若繼續(xù)發(fā)射導(dǎo)彈 德黑蘭將成火海

體育要聞

約戰(zhàn)天王山,步行者G4輸在了哪?

娛樂要聞

小S迎47歲生日,首個生日沒大S陪伴

財經(jīng)要聞

樓市權(quán)威發(fā)聲

汽車要聞

長城為了拿環(huán)塔冠軍有多拼?魏建軍在下一盤大棋!

態(tài)度原創(chuàng)

旅游
藝術(shù)
健康
教育
軍事航空

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

呼吸科專家破解呼吸道九大謠言!

教育要聞

速看!北京中學(xué)招聘教師啦

軍事要聞

伊媒:以色列國防部大樓被伊朗導(dǎo)彈擊中

無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 中国极品少妇videossexhd| 亚洲精品国产精品国自产| 人成午夜免费视频无码| 中文字幕乱码无码人妻系列蜜桃| 国产福利萌白酱在线观看视频| 四虎国产精品一区二区| 久久婷婷人人澡人人爽人人爱| 国产精品久久国产精品99 gif| 99e热久久免费精品首页| 成 年 人 黄 色 大 片大 全| 国产精品午睡沙发系列| 神马影院午夜dy888| 亚洲精品国产一区二区图片| 无码人妻精品一区二区三区9厂| 亚洲精品无码电影| 亚洲色偷偷av男人的天堂| 久久这里只有精品18| 国产精品日本一区二区不卡视频| 熟妇五十路六十路息与子| 国产真实夫妇视频| 亚洲丰满熟女一区二区哦| 久久国产精品老女人| 8x8ⅹ在线永久免费入口| 国产成av人片在线观看无码| 99久久超碰中文字幕伊人| 国内永久福利在线视频图片| 久久成人国产精品一区二区| 丰满人妻无码专区视频| 男人扒开女人腿做爽爽视频| 蜜臀av午夜一区二区三区| 成人免费播放视频777777| 国产亚洲精品久久7788| 国产又爽又黄又爽又刺激| 天堂а√中文最新版地址在线| 永久免费毛片在线播放| 一本色道久久综合亚州精品蜜桃| 国产精品人妻99一区二区三区| 国产精品18久久久| 日本在线 | 中文| 国产高清无密码一区二区三区| 色欲色香天天天综合无码www|