大香大香伊人在钱线久久,亚洲日韩欧美国产高清αv,日本强伦姧人妻久久影片,亚洲国产成人欧美在线观看

網易首頁 > 網易號 > 正文 申請入駐

136張截圖,vivo開源DeepSeek R1式強化學習,提升GUI智能體預測

0
分享至




基于規則的強化學習(RL/RFT)已成為替代 SFT 的高效方案,僅需少量樣本即可提升模型在特定任務中的表現。

該方法通過預定義獎勵函數規避人工標注成本,如 DeepSeek-R1 在數學求解中的成功應用,以及多模態領域在圖像定位等任務上的性能突破(通常使用 IOU 作為規則 reward)。

vivo 與香港中文大學的研究團隊受到 DeepSeek-R1 的啟發,首次將基于規則的強化學習(RL)應用到了 GUI 智能體領域。



  • 論文標題:UI-R1: Enhancing Action Prediction of GUI Agents by Reinforcement Learning
  • 論文地址:https://arxiv.org/abs/2503.21620
  • 項目主頁:https://yxchai.com/UI-R1/
  • 項目代碼:https://github.com/lll6gg/UI-R1

簡介

本研究創新性地將規則 RL 范式拓展至基于低級指令的 GUI 動作預測任務。具體實現中,多模態大語言模型為每個輸入生成包含推理標記和最終答案的多條響應軌跡,在訓練和測試時的 prompt 設計如下:



隨后通過我們設計的獎勵函數評估每條響應,并采用 GRPO 等策略優化算法更新模型參數。該獎勵函數包含三個維度:

  • 動作類型獎勵:根據預測動作與真實動作的匹配度計算;
  • 動作參數獎勵(聚焦點擊操作):通過預測坐標是否落入真實邊界框評估;
  • 格式規范獎勵:評估模型是否同時提供推理過程和最終答案。

數據制備方面,僅依據難度、多樣性和質量三原則篩選 130 余個移動端訓練樣本,展現出卓越的數據效率。實驗表明,UI-R1 在桌面端和網頁平臺等跨領域(OOD)數據上均取得顯著性能提升,印證了規則 RL 處理跨領域復雜 GUI 任務的潛力。

方法:強化學習驅動的 GUI 智能體



我們提出的 UI-R1 模型采用了三個關鍵創新:

1. 獨特的獎勵函數設計

研究團隊設計了專門針對 GUI 任務的獎勵函數:R = R_T + R_C + R_F

R_T:行為類型獎勵(點擊、滑動、返回等)

R_C:坐標準確度獎勵(點擊位置是否準確)

R_F:格式獎勵(輸出的格式是否正確)

2. 精心篩選的高質量數據

與其使用大量普通數據,我們提出采用了「質量優先」的策略,從三個維度精選訓練數據:

質量:選擇標注準確、對齊良好的樣本

難度:專注于基礎模型難以解決的「困難」樣本

多樣性:確保涵蓋各種行為類型和元素類型

最終只使用了136 個高質量樣本,比傳統方法少了幾百甚至上千倍,就能夠訓練得到比 SFT 方式更優的效果。

3. 群體相對策略優化算法

UI-R1 采用了一種名為 GRPO(Group Relative Policy Optimization)的算法。這種算法不需要額外的評論家模型,而是通過比較同一問題的多個不同回答來學習什么是「好」的回答。

實驗結果

1. 域內效果提升明顯



在 AndroidControl 基準測試上,UI-R1-3B 與基礎模型 Qwen2.5-VL-3B 相比:

  • 行為類型準確率提高了 15%
  • 定位準確率提高了 10.3%

2. 域外泛化能力驚人





UI-R1 在從未見過的桌面 PC 端和網頁界面上表現同樣出色:

  • 在 ScreenSpot 測試中,UI-R1-3B 的平均準確率達到78.6%,超越 CogAgent-18B 等大模型。
  • 在專業高分辨率環境 ScreenSpot-Pro 測試中,UI-R1-3B 達到17.8%的平均準確率,提升了與使用 76K 數據訓練的 OS-Atlas-7B(18.9%)性能相當。

分析

我們關于 UI-R1 做了一系列分析,研究發現:在 GRPO 的強化學習微調的方式下,數據質量比數據數量重要



  • 困難樣本更有價值:按難度選擇的方法比隨機選擇的性能顯著更好。
  • 數據增長收益遞減:隨著訓練數據量增加,性能提升趨于平緩。
  • 精選小數據集比大數據集更有效:三階段數據選擇方法優于使用整個數據集或者隨機篩選相同數量的子集。

此外,我們還發現動作預測的難度與思考的長度之間存在關聯:思考長度越長,準確率越低(說明問題越難),但通過 UI-R1 形式的強化學習微調之后,對于難樣本的成功率提升也更加明顯。



這一現象證明了強化微調的價值,通過讓模型自主思考來提升難樣本的準確率,這個特性是之前的監督微調所難以獲得的。

未來探索方向

UI-R1 初步探索了大模型強化學習和推理技術在 GUI Agent 領域的應用。下一步,我們將嘗試將 UI-R1 從 RFT 拓展到 SFT + RFT 的組合,實現大規模 UI 數據下統一的思考、決策、規劃的 GUI Agent 大模型

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
鄭欽文1-2出局,無緣倫敦站決賽!仍獲56萬獎金,輸球原因揭曉

鄭欽文1-2出局,無緣倫敦站決賽!仍獲56萬獎金,輸球原因揭曉

小火箭愛體育
2025-06-15 01:09:17
突發!以色列國防部總部被炸,以方:與伊朗政權處于“戰爭狀態”!15分鐘內3次導彈齊射,伊朗再出手,“正在計劃打擊美軍基地”

突發!以色列國防部總部被炸,以方:與伊朗政權處于“戰爭狀態”!15分鐘內3次導彈齊射,伊朗再出手,“正在計劃打擊美軍基地”

每日經濟新聞
2025-06-14 15:21:18
伊朗總統威脅報復以色列,但先在全國范圍內停用互聯網

伊朗總統威脅報復以色列,但先在全國范圍內停用互聯網

一種觀點
2025-06-13 21:34:45
國內首針!47歲京東副總裁蔡磊與漸凍癥抗爭6年后,終于迎來希望

國內首針!47歲京東副總裁蔡磊與漸凍癥抗爭6年后,終于迎來希望

小嵩
2025-06-14 08:49:51
伊朗:打擊美軍基地 下一輪對以襲擊導彈數是20倍

伊朗:打擊美軍基地 下一輪對以襲擊導彈數是20倍

看看新聞Knews
2025-06-14 20:25:47
美以或將伊朗滅國,中國應做好三大準備!

美以或將伊朗滅國,中國應做好三大準備!

華山穹劍
2025-06-14 21:04:00
桃子立大功!醫生發現:常常吃桃子的人,過不了多久,或有4變化

桃子立大功!醫生發現:常常吃桃子的人,過不了多久,或有4變化

游古史
2025-06-11 10:34:49
專家稱印度墜機副駕駛犯了一個極其簡單的錯誤:主駕要求收起起落架,他收起了襟翼

專家稱印度墜機副駕駛犯了一個極其簡單的錯誤:主駕要求收起起落架,他收起了襟翼

愛下廚的阿釃
2025-06-14 11:20:08
一查嚇一跳!湖南湘雅二醫院的院長竟然是八零后,40歲就上位了…

一查嚇一跳!湖南湘雅二醫院的院長竟然是八零后,40歲就上位了…

火山詩話
2025-06-14 06:17:52
40歲健身網紅唐博濤離世,妻子透露原因,常年健身經常爬320層樓

40歲健身網紅唐博濤離世,妻子透露原因,常年健身經常爬320層樓

娛樂圈圈圓
2025-06-14 15:20:50
缺口達萬億!機構稱:賬期60天若嚴格實行,僅兩家車企資金安全

缺口達萬億!機構稱:賬期60天若嚴格實行,僅兩家車企資金安全

明鏡pro
2025-06-14 07:49:02
伊朗15分鐘向以色列進行3次導彈齊射,哈梅內伊:絕不讓以政權全身而退!以軍否認F-35戰機被擊落

伊朗15分鐘向以色列進行3次導彈齊射,哈梅內伊:絕不讓以政權全身而退!以軍否認F-35戰機被擊落

每日經濟新聞
2025-06-14 13:47:08
3歲孫女被爺奶輪流扇41個耳光,打致嘔吐,媽媽:他們打女兒還打我,可我不能離婚

3歲孫女被爺奶輪流扇41個耳光,打致嘔吐,媽媽:他們打女兒還打我,可我不能離婚

深度知局
2025-06-14 08:09:05
女教授吐槽:實在不愿帶女學生了!三個真實案例揭開女生教育困境

女教授吐槽:實在不愿帶女學生了!三個真實案例揭開女生教育困境

教育人看世界
2025-06-14 15:47:48
網傳“女生萬象城遭挾持”,杭州上城警方通報

網傳“女生萬象城遭挾持”,杭州上城警方通報

環球網資訊
2025-06-14 18:57:23
中國專列,以最快速度駛進伊朗,伊朗總統也以最快速度訪問中國!

中國專列,以最快速度駛進伊朗,伊朗總統也以最快速度訪問中國!

大道無形我有型
2025-06-14 11:32:10
買泡泡瑪特的人不會買茅臺,買茅臺的人看不上泡泡瑪特,最慘的是,年輕人不帶你玩了……

買泡泡瑪特的人不會買茅臺,買茅臺的人看不上泡泡瑪特,最慘的是,年輕人不帶你玩了……

毯叔盤錢
2025-06-14 09:17:59
南航“美女經理”:除了生理期就沒閑過,兩年半和上級開房410次

南航“美女經理”:除了生理期就沒閑過,兩年半和上級開房410次

就一點
2025-06-13 16:45:25
印度網民們怒了!負責墜機飛機維修的是國企,曾讓全女工程師團隊更換787發動機

印度網民們怒了!負責墜機飛機維修的是國企,曾讓全女工程師團隊更換787發動機

不掉線電波
2025-06-14 21:25:56
袁立小號發文緬懷羅帥宇,連發兩條動態,看新聞難過到吃不下飯

袁立小號發文緬懷羅帥宇,連發兩條動態,看新聞難過到吃不下飯

趣文說娛
2025-06-14 11:13:03
2025-06-15 01:44:49
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
10640文章數 142338關注度
往期回顧 全部

科技要聞

一輛新車比特斯拉FSD都便宜,全行業陪葬?

頭條要聞

以防長威脅哈梅內伊:若繼續發射導彈 德黑蘭將成火海

頭條要聞

以防長威脅哈梅內伊:若繼續發射導彈 德黑蘭將成火海

體育要聞

約戰天王山,步行者G4輸在了哪?

娛樂要聞

小S迎47歲生日,首個生日沒大S陪伴

財經要聞

樓市權威發聲

汽車要聞

長城為了拿環塔冠軍有多拼?魏建軍在下一盤大棋!

態度原創

游戲
教育
藝術
本地
手機

死掉的“賽博初戀”,有誰能夠打贏復活賽?

教育要聞

速看!北京中學招聘教師啦

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

本地新聞

最近的打工人,都在熬夜看這劇逐幀學習職場小技巧

手機要聞

蘋果新系統引領新潮流?OPPO:不跟進

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 亚洲成a人片77777群色| 又嫩又硬又黄又爽的视频| 狠狠躁18三区二区一区| 2020年最新国产精品正在播放| 亚洲国产一区二区三区在线观看| 久久天天躁夜夜躁狠狠i女人| 亚洲熟女综合色一区二区三区| 欧美黑人粗大猛烈18p| 亚洲国产精品成人影片久久| 国产精品无码av不卡顿| 亚洲va成无码人在线观看| 夜精品一区二区无码a片| 九九影院午夜理论片少妇| 欧美狠狠入鲁的视频777色| 欧美va天堂va视频va在线| 色狠狠一区二区三区香蕉| 精品一区二区三区av天堂| 国产成年女人毛片80s网站| av综合网男人的天堂| 欧美牲交视频免费观看| 四虎永久在线精品8848a| 国产日韩欧美亚欧在线| 男人和女人高潮免费网站| 一日本道伊人久久综合影| 插插插精品亚洲一区| a一区二区三区乱码在线 | 欧洲| 国产精品久久久久aaaa| 豆国产97在线 | 亚洲| www插插插无码免费视频网站| 人妻丰满熟妞av无码区| √天堂资源在线中文8在线最新版| 伊伊人成亚洲综合人网7777| 国产成人精品视频ⅴa片软件竹菊| 人人爽人人爽人人片a| 国产成人欧美一区二区三区| 日本三级在线观看免费| 性做久久久久久久久| 亚洲精品成人无码中文毛片不卡| 99久久99久久精品国产片果冻| 给我免费的视频在线观看| 手机国产丰满乱子伦免费视频|