大香大香伊人在钱线久久,亚洲日韩欧美国产高清αv,日本强伦姧人妻久久影片,亚洲国产成人欧美在线观看

網易首頁 > 網易號 > 正文 申請入駐

科學家將R1技術遷移到多模態領域,只需10條數據就能提升模型性能

0
分享至

既能將 DeepSeek R1 技術遷移到多模態領域,也能讓 Qwen2 VL 學會批判性思維,最低只需 10 條數據就能提升模型性能,這便是來自上海交通大學、上海人工智能實驗室和香港中文大學的研究人員打造的名為 Visual-RFT(Visual Reinforcement Fine-Tuning)的視覺強化微調開源項目,它進一步擴展了強化微調在視覺任務上的應用領域。


(來源:arXiv)

在只有大約 100 個樣本的數據極其有限的采樣條件下,Visual-RFT 的準確率比基線提高 24.3%,而監督微調則下降了 4.3%。

在小樣本實驗中,盡管 Visual-RFT 使用最少的訓練數據,但是與監督微調相比,它展示了更卓越的小樣本學習能力。在推理定位方面,Visual-RFT 在高度依賴推理的 LISA 數據集上表現出色,超過了像 GroundedSAM 這樣的專門模型。

此外,在開放詞匯對象檢測中,Visual-RFT 將識別能力快速轉移到新類別,包括 LVIS(Large Vocabulary Instance Segmentation)中的罕見類別,表現出很強的泛化能力。

具體而言,2B 模型在新類別的 COCO 數據集上實現了從 9.8 到 31.3 的平均精度均值(mAP,mean Average Precision)改進,在特定的罕見類別的 LVIS 上實現了 2.7 到 20.7 的平均精度均值改善。

這些多樣化的視覺感知任務不僅突顯了 Visual-RFT 在視覺識別中的強大泛化能力,還凸顯了強化學習在增強視覺感知和推理方面的關鍵作用。



Visual-RFT:微調大型視覺語言模型的范式轉變

Visual-RFT,也是第一種采用基于群體相對策略優化的強化學習策略來增強大型視覺語言模型的視覺感知能力和定位能力的方法。

Visual-RFT 在后訓練階段使用基于群體相對策略優化的強化算法和可驗證的獎勵,來增強模型的視覺感知能力和推理能力,從而能夠提高大型視覺語言模型在處理各種視覺任務時的性能,特別是在微調數據有限的情況下。

具體來說,Visual-RFT 使用大型視覺語言模型為每個輸入生成包含推理 tokens 和最終答案的多個響應,然后使用視覺感知可驗證獎勵函數,通過群體相對策略優化(GRPO,Group Relative Policy Optimization)算法來更新模型。

研究中,研究人員為不同的感知任務設計了不同的可驗證獎勵函數,例如用于物體檢測的聯合交叉(IoU,Intersection over Union)獎勵。在細粒度圖像分類、少量樣本物體檢測、推理基礎以及開放詞匯對象檢測基準上的實驗結果表明,與監督微調(SFT,Supervised Fine-tuning)相比,Visual-RFT 具有更強的性能和泛化能力。

例如,在大約 100 個樣本的一次細粒度圖像分類中,Visual-RFT 的準確率比基線提高 24.3%。在少量樣本物體檢測中,Visual-RFT 在 COCO 數據集的 two-shot 設置上也超過了基線 21.9,在 LVIS 上超過了基線 15.4。

概括來說:

首先,Visual-RFT 將具有可驗證獎勵的強化學習擴展到視覺感知任務中,而這些任務在微調數據有限的情況下是有效的。

其次,研究人員為不同的視覺任務設計不同的可驗證獎勵,以幾乎可以忽略不計的成本實現了高效、高質量的獎勵計算。

再次,研究人員對各種視覺感知任務進行了廣泛的實驗,包括細粒度圖像分類、小樣本物體檢測、推理基礎和開放詞匯表物體檢測。在所有設置中,Visual-RFT 都實現了顯著的性能提升,大大超越了監督微調基線。

通過使用基于規則的可驗證獎勵系統,Visual-RFT 減少了手動標記的需要并簡化了獎勵計算,從而在各種視覺感知任務中取得了顯著的進步。Visual-RFT 在最小數據下優于監督微調,并顯示出很強的泛化能力,借此展示了強化學習在增強大型視覺語言模型能力方面的潛力,使它們在視覺感知任務中變得更加高效和有效。



Visual-RFT:與依賴于記住正確答案的監督微調形成對比

Visual-RFT 的框架下圖所示,其由來自用戶的多模態輸入數據由圖像和問題組成。


(來源:arXiv)

策略模型 πθ 輸出推理過程,并根據輸入生成一組響應。每個響應都通過一個可驗證的獎勵函數來計算獎勵。在對每個輸出的獎勵進行分組計算后,評估每個響應的質量并用于更新策略模型。為了確保策略模型訓練的穩定性,Visual-RFT 使用 KL 散度(Kullback-Leibler Divergence)來限制策略模型和參考模型之間的差異。(注:KL 散度,也稱為相對熵,是一種衡量兩個概率分布之間差異的指標。)

為了在可視化任務上擴展強化微調,研究人員給出了可視化強化微調的實現細節。對于每個輸入,Visual-RFT 使用大型視覺語言模型生成包含推理 tokens 和最終答案的多個響應。


(來源:arXiv)

研究人員表示,Visual-RFT 與依賴于記住正確答案的監督微調形成對比。相反,Visual-RFT 能夠探索不同的潛在解決方案,并學習優化由研究人員設計的可驗證獎勵函數所定義的期望結果,而不僅僅是模仿預先定義的答案。

Visual-RFT 能夠將訓練范式從監督微調中的數據縮放(data scaling),轉變為針對特定多模態任務量身定制的可變獎勵函數的戰略設計。

可驗證獎勵和視覺感知能力(例如檢測、定位、分類)的協同結合,讓研究人員所使用的模型能夠通過詳細的推理過程,快速且高效地掌握新概念。


(來源:arXiv)



Visual-RFT:讓 Qwen2 VL 學會批判性思維

據介紹,研究人員采用少樣本學習方法,為模型提供最少數量的樣本進行訓練。對于圖像分類和目標檢測任務,采用小樣本設置來評估模型的細粒度判別和識別能力,在有限的數據上應用強化學習。

然后,針對注重推理基礎、需要強大推理能力的 LISA 數據集,使用 Visual-RFT 訓練模型并評估其推理性能和感知性能。

同時,對于開放詞匯表對象檢測,研究人員通過在包含 65 個基類的細分 COCO 數據集上使用 Visual-RFT 訓練 Qwen2-VL-2/7B,來評估模型的泛化能力。

然后,在 COCO 數據集的 15 個新類別和 LVIS 的 13 個罕見類別上進行測試。

需要說明的是,該模型的視覺感知和推理能力是在開放的詞匯檢測環境中進行評估的。

實驗中,研究人員首先提示模型檢查圖像中是否存在類別,然后預測圖像中存在的類別的邊界框。

首先,研究人員進行了小樣本分類實驗。

為了展示 Visual-RFT 在視覺領域的廣泛泛化能力,研究人員在細粒度圖像分類上進行少樣本實驗。

研究人員選擇了四個數據集:Flower102、Pets37、FGVCAircraft 和 Car196,它們包含數十到數百個類似的類別,因此這一分類任務的難度較大。

結果顯示,僅需一次數據,Visual-RFT 就可以顯著提高性能(+24.3%)。


(來源:arXiv)

相比之下,在相同的最小數據量下,監督微調顯示出明顯的下降(-4.3%)。在 4-shot 設置下,監督微調的性能仍略低于基線,而使用 Visual-RFT 的強化微調模型的平均性能提高了 25.9。

在 8-shot 和 16-shot 設置下,隨著數據量的增加,監督微調的性能略微超過基線。

然而,監督微調的性能仍然明顯落后于 Visual-RFT。如下圖,研究人員展示了在處理細粒度分類任務時,經過強化微調后模型的一些推理案例。


(來源:arXiv)

這些結果不僅證明了 Visual-RFT 的強大泛化能力及其從有限數據中學習的能力,而且證實了與監督微調相比,強化微調可以真正理解任務并從推理中進行更深入的學習。

隨后,研究人員進行了小樣本物體檢測實驗。

小樣本學習一直是傳統視覺模型和大規模視覺語言模型面臨的核心挑戰之一。強化微調為該問題提供了新的解決方案,使模型能夠利用少量數據快速學習和理解。

研究人員從 COCO 數據集中選擇了 8 個類別,每個類別有 1、2、4、8 和 16 幅圖像,以構建數據有限的訓練集。

對于 LVIS 數據集,研究人員選擇了 6 個罕見類別。

由于這些罕見類別的訓練圖像非常稀疏,每個類別有 1 到 10 張圖像,將其近似為 10-shot 設置。

然后,研究人員使用強化微調和監督微調對 Qwen2-VL-2/7B 模型進行 200 步訓練,以評估模型在有限數據下的學習能力。雖然監督微調和強化微調都能提升模型在小樣本設置下的識別準確率,但強化微調后的模型表現始終大幅優于監督微調模型,保持了顯著的領先優勢。

在 COCO 類別中,隨著訓練數據的增加,監督微調模型的平均精度均值約為 31,而強化微調模型接近 47。

在 LVIS 小樣本實驗結果中,對于 LVIS 中六個更具挑戰性的罕見類別,強化微調仍然優于監督微調。


(來源:arXiv)

實驗結果清晰地展現了強化微調在少樣本設置下的優異性能,讓模型僅通過少量數據就能通過強化學習實現視覺感知能力的顯著提升。

研究人員進一步測試了一些抽象的域外數據集。具體來說,其選擇了 MG(Monster Girls)數據集,其中包含不同類型的動漫風格怪物女孩。通過使用域外數據,增加了模型識別和推理的難度,并在 4-shot 和 16-shot 設置下進行了實驗。結果表明,強化微調取得了顯著的性能提升,超過了監督微調。


(來源:arXiv)

接著,研究人員進行了推理依據實驗。

視覺語言智能的另一個關鍵方面是根據用戶需求確定精確的對象。

此前的專業檢測系統缺乏推理能力,無法完全理解用戶的意圖。

在 LISA 訓練集的幫助下,人們已經開展了多項工作,使得大型語言模型能夠為其他模型輸出控制 tokens 或通過監督微調直接預測邊界框坐標。

在本次研究中,研究人員探索了 Visual-RFT 在這項任務中的能力,借此發現強化學習比監督微調有著顯著改進。

具體來說,研究人員使用 Visual-RFT 和監督微調針對 LISA 訓練集上的 Qwen2 VL 2B/7B 模型進行微調,該訓練集由 239 幅具有真實推理對象的圖像組成。

研究人員遵循與 LISA 相同的測試設置,并比較監督微調和本次的結果,兩者都經過了 500 步微調。

與監督微調相比,Visual-RFT 在邊界框聯合交叉方面顯著提高了最終結果。


(來源:arXiv)

此外,研究人員使用 Qwen2 VL 預測邊界框提示 SAM 來生成分割掩碼。

借此發現,Visual-RFT 能夠顯著增強了定位能力,并且優于之前的專用檢測系統。

其中,模型在思維過程中顯著提高了推理能力和定位準確性。


(來源:arXiv)

通過 Visual-RFT,Qwen2 VL 學會了批判性思維,并能夠通過仔細檢查圖像來產生準確的結果。

為了進一步證明強化微調的泛化能力,研究人員進行了開放詞匯對象檢測實驗。

Visual-RFT 相對于監督微調的優勢在于,前者對于任務有著真正深入的理解,而不僅僅是記住數據。為此,研究人員首先從 COCO 數據集中隨機抽取了 6K 個注釋,其中包括 65 個基本類別。

研究人員使用這些數據對 Qwen2-VL-2/7B 模型進行了可視化強化微調和監督微調,并在 15 個以前從未見過的新類別上對模型進行了測試。

為了增加難度,研究人員進一步測試了 LVIS 數據集中的 13 個罕見類別。

經過強化微調后,Qwen2-VL-2/7B 模型在 COCO 數據集中的 15 個新類別上實現了平均精度均值增加 21.5 和 9.5。

在 LVIS 數據集中更具挑戰性的罕見類別中,平均精度均值分別增加了 18.0 和 14.7。

Visual-RFT 不僅將其檢測能力從 COCO 基本類別轉移到新的 COCO 類別,而且在更具挑戰性的罕見 LVIS 類別上也取得了重大改進。

值得注意的是,對于下表中的一些罕見的 LVIS 類別,原始模型或監督微調訓練的模型無法識別這些類別,導致 AP 值為 0。


(來源:arXiv)

然而,經過強化微調后,該模型在識別這些以前無法識別的類別(如蛋卷和蒲團)方面顯示出從 0 到 1 的質的飛躍。這表明 Visual-RFT 對于提高大型視覺語言模型視覺識別的性能和泛化能力具有重大影響。

可以說,Visual-RFT 代表了微調大型視覺語言模型的范式轉變,它提供了一種數據高效、獎勵驅動的方法,增強了特定領域任務的推理和適應性。它成功地擴展了強化微調,使大型視覺語言模型能夠在各種多模態任務中使用,例如用于少樣本分類和開放詞匯目標檢測之中。目前,研究人員已經 Github 上完全開源了訓練代碼、訓練數據和評估腳本。

參考資料:

https://arxiv.org/pdf/2503.01785

https://github.com/Liuziyu77/Visual-RFT

運營/排版:何晨龍

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
小米被大唐移動在德國發起專利訴訟,專家不解為何不在國內解決!網友:大漂亮都被告贏了

小米被大唐移動在德國發起專利訴訟,專家不解為何不在國內解決!網友:大漂亮都被告贏了

大白聊IT
2025-06-14 22:40:35
老杜有救了?第三國出手,馬科斯家族把柄被抓,ICC接到釋放申請

老杜有救了?第三國出手,馬科斯家族把柄被抓,ICC接到釋放申請

牛鍋巴小釩
2025-06-15 10:35:17
陳可辛《醬園弄》票房僅185萬,美國大片《新馴龍高手》強勢奪冠

陳可辛《醬園弄》票房僅185萬,美國大片《新馴龍高手》強勢奪冠

千信齊飛
2025-06-14 23:28:28
“德黑蘭正在燃燒”!“二普”又通話;烏克蘭摧毀俄重要軍工廠

“德黑蘭正在燃燒”!“二普”又通話;烏克蘭摧毀俄重要軍工廠

近距離
2025-06-15 10:43:46
烏克蘭富家女嫁到河南農村,31歲的丈夫因病逝世,她立馬把3個兒子國籍全改了,公婆說:她是恩人!

烏克蘭富家女嫁到河南農村,31歲的丈夫因病逝世,她立馬把3個兒子國籍全改了,公婆說:她是恩人!

LULU生活家
2025-06-09 18:27:46
國新辦新聞發布會,帶來養老金調整最新消息,調整通知何時下發?

國新辦新聞發布會,帶來養老金調整最新消息,調整通知何時下發?

社保小達人
2025-06-15 10:05:11
我退休旅游5年,走遍全國后才發現:旅行對老年人來說,真沒意思

我退休旅游5年,走遍全國后才發現:旅行對老年人來說,真沒意思

明月讀書吧
2025-05-28 13:40:03
世俱杯積分榜:邁阿密、開羅國民各取1分,明晨拜仁巴黎馬競出戰

世俱杯積分榜:邁阿密、開羅國民各取1分,明晨拜仁巴黎馬競出戰

直播吧
2025-06-15 10:48:46
550萬在美華人數據全公開,88%中國籍博士留在美國!

550萬在美華人數據全公開,88%中國籍博士留在美國!

霹靂炮
2025-05-29 23:14:55
印尼變卦了?殲10還沒確定,土耳其宣布:將賣給印尼48架5代機

印尼變卦了?殲10還沒確定,土耳其宣布:將賣給印尼48架5代機

青輝
2025-06-15 11:40:10
絕了!碘伏才是隱藏的省錢刺客!我居然白白燒了五年冤枉錢!

絕了!碘伏才是隱藏的省錢刺客!我居然白白燒了五年冤枉錢!

墻頭草
2025-04-01 12:00:11
《易經》相學揭秘:三處生痣者,命中藏金玉,注定富貴加身

《易經》相學揭秘:三處生痣者,命中藏金玉,注定富貴加身

一根香煙的少女
2025-05-17 13:49:34
嚴重告急!倫敦十年內無墳可用,水煮遺體排入下水道或將合法化

嚴重告急!倫敦十年內無墳可用,水煮遺體排入下水道或將合法化

健身狂人
2025-06-15 10:52:39
中雨!大雨!雷暴大風!長春最新天氣

中雨!大雨!雷暴大風!長春最新天氣

魯中晨報
2025-06-15 09:06:03
美國大閱兵,士兵死氣沉沉,不如印度有意思,不如胡塞武裝有氣勢

美國大閱兵,士兵死氣沉沉,不如印度有意思,不如胡塞武裝有氣勢

頭條爆料007
2025-06-15 11:42:40
江蘇養老金調整預測,工齡15年、25年、40年,養老金相差多少?

江蘇養老金調整預測,工齡15年、25年、40年,養老金相差多少?

錘不倒的拖油瓶
2025-06-15 06:22:04
隨著上海申花1:2不敵深圳新鵬城,3問主教練斯盧茨基?

隨著上海申花1:2不敵深圳新鵬城,3問主教練斯盧茨基?

田先生籃球
2025-06-14 22:49:35
以色列襲擊伊朗:因“核”而起,或也將因“核”而失控

以色列襲擊伊朗:因“核”而起,或也將因“核”而失控

澎湃新聞
2025-06-13 15:26:27
托特納姆轉會神操作省下2100萬 拜仁球星“低價”交易接近“達成”

托特納姆轉會神操作省下2100萬 拜仁球星“低價”交易接近“達成”

硯底沉香
2025-06-15 03:47:28
同樣是演“李善德”,把雷佳音和大鵬放一塊比,差距一目了然!

同樣是演“李善德”,把雷佳音和大鵬放一塊比,差距一目了然!

說說史事
2025-06-14 17:55:10
2025-06-15 12:32:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評論獨家合作
15294文章數 513782關注度
往期回顧 全部

科技要聞

華為Pura80系列首銷:不再嚴重缺貨

頭條要聞

清華高顏值美女學霸走紅 本人最新發聲

頭條要聞

清華高顏值美女學霸走紅 本人最新發聲

體育要聞

裁判可以噴,但也從步行者自身找找問題?

娛樂要聞

鳳凰傳奇曾毅塌房?網友:別連累玲花

財經要聞

以伊沖突持續升級,對全球市場影響多大

汽車要聞

長城為了拿環塔冠軍有多拼?魏建軍在下一盤大棋!

態度原創

房產
手機
藝術
數碼
軍事航空

房產要聞

又一城購房補貼!買房就發錢,正在海南樓市瘋狂擴散!

手機要聞

消息稱小米 MIX Flip2、魅族 22 系列等機型 6 月-7 月發布

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

數碼要聞

AMD 銳龍7 9700F曝光:無核顯加持,主流游戲玩家的新希望?

軍事要聞

伊朗最高領袖高級顧問沙姆哈尼 因傷勢過重離世

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 国产精品aⅴ视频在线播放| 国产精品亚洲成在人线| 无码视频一区二区三区在线观看| 午夜精品久久久久久久久| 国产成人亚洲综合无码精品| 亚洲熟妇无码av在线播放| 99精品久久久中文字幕| 成人无码小视频在线观看| 一道久久爱综合久久爱| 人妻少妇乱孑伦无码专区蜜柚| 精品无码av不卡一区二区三区| 久久躁狠狠躁夜夜av| 亚洲a∨无码一区二区三区| 男女猛烈无遮挡免费视频| 99久久精品国产免费| 亚洲精品日本一区二区三区| 日本边添边摸边做边爱喷水| 疯狂撞击丝袜人妻| 日产日韩亚洲欧美综合在线| 狠狠色成人综合网| 一本久久a久久精品亚洲| 国产亚洲精品资源在线26u| 亚洲国产成人精品无码区在线网站| 免费午夜无码18禁无码影视| 免费av片在线观看网址| 天天摸天天透天天添| 亚洲在线国产日韩欧美| 四虎永久在线精品国产免费| 99麻豆久久久国产精品免费| 久久久久久99av无码免费网站| 亚洲精品无码人妻无码| 国产精品久久久久久久久软件| 黑人猛挺进小莹的体内视频| 精品国产乱码久久久久软件| 国产亚洲日韩在线aaaa| 国产精品亚洲综合一区二区三区| 伊人久久精品亚洲午夜| 妺妺窝人体色777777| 国产偷人妻精品一区| 在线亚洲+欧美+日本专区| 亚洲仺av香蕉久久|