大香大香伊人在钱线久久,亚洲日韩欧美国产高清αv,日本强伦姧人妻久久影片,亚洲国产成人欧美在线观看

網易首頁 > 網易號 > 正文 申請入駐

首個視覺RL統一框架!推理感知兩手抓,性能橫掃MEGA-Bench

0
分享至

鷺羽 發自 凹非寺
量子位 | 公眾號 QbitAI

僅需一個強化學習(RL)框架,就能實現視覺任務大統一

現有RL對推理和感知任務只能二選一,但“大模型六小強”之一MiniMax表示:我全都要!



最新開源V-Triune(視覺三重統一強化學習系統)框架,使VLM首次能夠在單個后訓練流程中,聯合學習和掌握視覺推理和感知任務。

通過三層組件設計基于動態交并比(IoU)的獎勵機制,彌補了傳統RL方法無法兼顧多重任務的空白。



甚至基于V-Triune,MiniMax還一步到位,貼心地給大家開發了全新的Orsta(One RL to See Them All)模型系列(7B至32B),在MEGA-Bench Core基準測試中從+2.1%顯著提升至+14.1%。



值得注意的是,在論文的作者一欄,MiniMax創始人兼CEO閆俊杰也參與了這項研究。



目前V-Triune框架和Orsta模型都在GitHub上實現全面開源,點擊文末鏈接即可跳轉一鍵獲取。

那話不多說,咱們直接上細節。

推理感知“兩手抓”

視覺任務可以分為推理感知兩類,在當前,RL研究主要集中于數學QA和科學QA等視覺推理任務。

而目標檢測和定位等視覺感知任務,因亟需獨特的獎勵設計和訓練穩定性保障,還沒有得到一個很好的解決方案……



針對上述問題,MiniMax針對性地提出了新框架V-Triune,作為首個面向VLM后訓練的統一RL系統,通過三個互補組件核心巧妙實現二者的平衡。

樣本級數據格式化

讓每個樣本自定義其獎勵設置和驗證器,支持動態路由和權重調整,以處理多種任務需求。

數據模式基于HuggingFace數據集實現,包含以下三個字段:

  1. reward_model:樣本級定義獎勵類型、權重。
  2. verifier:指定驗證器及其參數。
  3. data_source:標識樣本來源。

最終實現了多樣化數據集的無縫集成,同時支持高度靈活的獎勵控制。

驗證器級獎勵計算

采用異步客戶端-服務器架構,將獎勵計算與主訓練循環解耦。



客戶端通過代理工作器異步發送請求,而服務器則根據”verifier”字段路由至專用驗證器。

主要使用兩類驗證器:

  1. MathVerifyVerifierr:處理推理、OCR和計數任務。
  2. DetectionVerifier:處理檢測和定位任務,應用動態IoU獎勵。

從而實現在無需修改核心訓練流程的情況下,靈活擴展新任務或更新獎勵邏輯。

數據源級指標監控

在多任務多源訓練中,按數據源記錄以下指標:

  1. 獎勵值:追蹤數據集特定穩定性。
  2. IoU和mAP(感知任務):記錄不同閾值下的IoU和mAP。
  3. 響應長度和反思率:跟蹤響應長度分布、截斷率,以及15個預定義反思詞(如“re-check”)的出現比例。

該監控機制幫助診斷模型行為(如過度思考或膚淺響應),并確保學習的穩定性。



動態IoU獎勵

此外針對監測和定位任務,團隊還創新性地提出了動態IoU獎勵,分階段調整閾值,以緩解冷啟動問題,同時引導模型逐步提升定位精度:





雖然V-Triune提供了可擴展的數據、任務和指標框架,但早期實驗顯示,聯合訓練可能會導致評估性能下降梯度范數突增等不穩定現象,于是團隊又通過以下調整逐步解決:

  1. 凍結ViT參數,防止梯度爆炸。
  2. 過濾偽圖像特殊詞元,確保輸入特征對齊,提升訓練穩定性。
  3. 構建隨機化CoT提示池,降低提示依賴性。
  4. 由于V-Triune基于Verl框架實現,主節點內存壓力較大,需解耦測試階段與主訓練循環以管理內存。

Orsta模型

另外值得一提的是,基于開源的Qwen2.5-VL模型,團隊還訓練出7B和32B的Orsta模型



依據4類推理任務(數學、謎題、科學、圖表分析)和4類感知任務(物體檢測、目標定位、計數、OCR)的訓練數據,進行規則和難度的兩階段過濾和訓練優化。

最終實現在MEGA-Bench Core基準測試中,Orsta相比原始模型提升至+14.1%,尤其是在感知任務中,mAP指標顯著提高,證明了該統一方法的有效性和可擴展性。



MiniMax布局多模態領域

MiniMax作為商湯背景出身的AI六小龍之一,近期在多模態領域可謂動作頻頻,模型橫跨語言、音頻、視頻。



例如MiniMax的S2V-01視頻模型、MiniMax-VL-01視覺多模態模型以及MiniMax-T2A-01系列語言模型等。

尤其是廣受好評的MiniMax-01系列,包含基礎語言模型和視覺多模態模型兩種,性能上比肩DeepSeek-V3、GPT-4o等國內外頂尖模型的同時,還首次創新性實現了對新型Lightning Attention架構的大規模擴展。

最新發布的Speech-02,在AI語言生成上也是一騎絕塵,直接刷新全球權威語音基準測試榜單第一,一舉打破OpenAI、ElevenLabs的行業壟斷。



據悉,此番統一視覺任務的RL架構

是為后續更大規模模型的通用視覺能力做探索。

MiniMax的更多開源,感興趣的小伙伴可以持續蹲一蹲~

論文鏈接:https://arxiv.org/abs/2505.18129
代碼鏈接:https://github.com/MiniMax-AI/One-RL-to-See-Them-All

參考鏈接:
[1]https://x.com/MiniMax__AI/status/1926949919228600423
[2]https://huggingface.co/papers/2505.18129

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
鄭欽文1-2出局,無緣倫敦站決賽!仍獲56萬獎金,輸球原因揭曉

鄭欽文1-2出局,無緣倫敦站決賽!仍獲56萬獎金,輸球原因揭曉

小火箭愛體育
2025-06-15 01:09:17
突發!以色列國防部總部被炸,以方:與伊朗政權處于“戰爭狀態”!15分鐘內3次導彈齊射,伊朗再出手,“正在計劃打擊美軍基地”

突發!以色列國防部總部被炸,以方:與伊朗政權處于“戰爭狀態”!15分鐘內3次導彈齊射,伊朗再出手,“正在計劃打擊美軍基地”

每日經濟新聞
2025-06-14 15:21:18
伊朗總統威脅報復以色列,但先在全國范圍內停用互聯網

伊朗總統威脅報復以色列,但先在全國范圍內停用互聯網

一種觀點
2025-06-13 21:34:45
國內首針!47歲京東副總裁蔡磊與漸凍癥抗爭6年后,終于迎來希望

國內首針!47歲京東副總裁蔡磊與漸凍癥抗爭6年后,終于迎來希望

小嵩
2025-06-14 08:49:51
伊朗:打擊美軍基地 下一輪對以襲擊導彈數是20倍

伊朗:打擊美軍基地 下一輪對以襲擊導彈數是20倍

看看新聞Knews
2025-06-14 20:25:47
美以或將伊朗滅國,中國應做好三大準備!

美以或將伊朗滅國,中國應做好三大準備!

華山穹劍
2025-06-14 21:04:00
桃子立大功!醫生發現:常常吃桃子的人,過不了多久,或有4變化

桃子立大功!醫生發現:常常吃桃子的人,過不了多久,或有4變化

游古史
2025-06-11 10:34:49
專家稱印度墜機副駕駛犯了一個極其簡單的錯誤:主駕要求收起起落架,他收起了襟翼

專家稱印度墜機副駕駛犯了一個極其簡單的錯誤:主駕要求收起起落架,他收起了襟翼

愛下廚的阿釃
2025-06-14 11:20:08
一查嚇一跳!湖南湘雅二醫院的院長竟然是八零后,40歲就上位了…

一查嚇一跳!湖南湘雅二醫院的院長竟然是八零后,40歲就上位了…

火山詩話
2025-06-14 06:17:52
40歲健身網紅唐博濤離世,妻子透露原因,常年健身經常爬320層樓

40歲健身網紅唐博濤離世,妻子透露原因,常年健身經常爬320層樓

娛樂圈圈圓
2025-06-14 15:20:50
缺口達萬億!機構稱:賬期60天若嚴格實行,僅兩家車企資金安全

缺口達萬億!機構稱:賬期60天若嚴格實行,僅兩家車企資金安全

明鏡pro
2025-06-14 07:49:02
伊朗15分鐘向以色列進行3次導彈齊射,哈梅內伊:絕不讓以政權全身而退!以軍否認F-35戰機被擊落

伊朗15分鐘向以色列進行3次導彈齊射,哈梅內伊:絕不讓以政權全身而退!以軍否認F-35戰機被擊落

每日經濟新聞
2025-06-14 13:47:08
3歲孫女被爺奶輪流扇41個耳光,打致嘔吐,媽媽:他們打女兒還打我,可我不能離婚

3歲孫女被爺奶輪流扇41個耳光,打致嘔吐,媽媽:他們打女兒還打我,可我不能離婚

深度知局
2025-06-14 08:09:05
女教授吐槽:實在不愿帶女學生了!三個真實案例揭開女生教育困境

女教授吐槽:實在不愿帶女學生了!三個真實案例揭開女生教育困境

教育人看世界
2025-06-14 15:47:48
網傳“女生萬象城遭挾持”,杭州上城警方通報

網傳“女生萬象城遭挾持”,杭州上城警方通報

環球網資訊
2025-06-14 18:57:23
中國專列,以最快速度駛進伊朗,伊朗總統也以最快速度訪問中國!

中國專列,以最快速度駛進伊朗,伊朗總統也以最快速度訪問中國!

大道無形我有型
2025-06-14 11:32:10
買泡泡瑪特的人不會買茅臺,買茅臺的人看不上泡泡瑪特,最慘的是,年輕人不帶你玩了……

買泡泡瑪特的人不會買茅臺,買茅臺的人看不上泡泡瑪特,最慘的是,年輕人不帶你玩了……

毯叔盤錢
2025-06-14 09:17:59
南航“美女經理”:除了生理期就沒閑過,兩年半和上級開房410次

南航“美女經理”:除了生理期就沒閑過,兩年半和上級開房410次

就一點
2025-06-13 16:45:25
印度網民們怒了!負責墜機飛機維修的是國企,曾讓全女工程師團隊更換787發動機

印度網民們怒了!負責墜機飛機維修的是國企,曾讓全女工程師團隊更換787發動機

不掉線電波
2025-06-14 21:25:56
袁立小號發文緬懷羅帥宇,連發兩條動態,看新聞難過到吃不下飯

袁立小號發文緬懷羅帥宇,連發兩條動態,看新聞難過到吃不下飯

趣文說娛
2025-06-14 11:13:03
2025-06-15 01:44:49
量子位 incentive-icons
量子位
追蹤人工智能動態
10666文章數 176166關注度
往期回顧 全部

科技要聞

一輛新車比特斯拉FSD都便宜,全行業陪葬?

頭條要聞

以防長威脅哈梅內伊:若繼續發射導彈 德黑蘭將成火海

頭條要聞

以防長威脅哈梅內伊:若繼續發射導彈 德黑蘭將成火海

體育要聞

約戰天王山,步行者G4輸在了哪?

娛樂要聞

小S迎47歲生日,首個生日沒大S陪伴

財經要聞

樓市權威發聲

汽車要聞

長城為了拿環塔冠軍有多拼?魏建軍在下一盤大棋!

態度原創

家居
數碼
健康
手機
旅游

家居要聞

森林幾何 極簡灰調原木風

數碼要聞

黃仁勛親筆簽名版 RTX 5090 鍍金顯卡以 24200 美元達成慈善拍賣

呼吸科專家破解呼吸道九大謠言!

手機要聞

蘋果新系統引領新潮流?OPPO:不跟進

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 狠狠综合亚洲综合亚洲色| 国产成人高清精品免费软件| 自偷自拍亚洲综合精品麻豆| 夜夜揉揉日日人人青青| 中国精品偷拍区偷拍无码| 亚洲自偷自偷在线成人网址| 97欧美精品系列一区二区| 少妇高潮一区二区三区99| 无码人妻久久一区二区三区不卡| 亚洲经典三级| 久艾草久久综合精品无码| 亚洲a∨国产av综合av网站| 国产香蕉视频在线播放| 亚洲精品乱码久久久久久蜜桃不卡| 国产成人一区二区三区在线观看| 国产内射性高湖| 色婷婷亚洲婷婷7月| 亚洲精品久久久久久动漫器材一区| 久久久亚洲精品无码| 国产精品香蕉视频在线| 午夜免费无码福利视频| 欧美品无码一区二区三区在线蜜桃| 18禁无遮挡无码网站免费| 日本真人边吃奶边做爽电影| 亚洲狠亚洲狠亚洲狠狠狠| 男女猛烈xx00免费视频试看| 久久99精品久久久久久蜜芽| 亚洲愉拍自拍欧美精品app| 亚洲精品亚洲人成人网| 无码一区二区三区av免费蜜桃| 亚洲成a人一区二区三区| 久久国产精品-国产精品| 黄色成人网站免费无码av| 337p人体 欧洲人体 亚洲| 任你躁国产自任一区二区三区| 成人小说亚洲一区二区三区| 日本熟妇色xxxxx日本免费看| 四虎影视在线影院在线观看免费视频| 成年av动漫网站久久| 欧美老熟妇乱子伦牲交视频| 无码免费婬av片在线观看|