大香大香伊人在钱线久久,亚洲日韩欧美国产高清αv,日本强伦姧人妻久久影片,亚洲国产成人欧美在线观看

網易首頁 > 網易號 > 正文 申請入駐

科學家提出不思考強化學習微調策略,為計算資源受限提供解決路徑

0
分享至

近期,上海人工智能實驗室實習生李明與張凱鵬研究員的團隊,探討了在多模態大模型規則基礎的強化學習微調(RFT,Reinforcement Fine-Tuning)中顯式思考過程的作用。

該研究揭示了一個具有重要實踐意義的發現:以 DeepSeek-R1 為代表的大模型往往需要“先思考再回答”的推理模式,但在簡單視覺任務場景下,采用“不思考”強化學習(No-Thinking-RL)策略反而能夠顯著提高模型的微調效率和性能表現。

這一現象的背后涉及重要的計算資源優化機制。研究發現,與傳統監督式微調(SFT,Supervised Fine-Tuning)相比,RFT 會顯著增加 GPU 顯存需求。

具體表現為:一個原本僅需單張 80G 顯存 NVIDIA A100 顯卡即可完成的 SFT 任務,而采用 RFT 時可能需要 4 至 8 張同規格顯卡才能滿足需求。這種顯存占用的急劇增加主要源于 RFT 需要并行處理多個較長序列的模型輸出。

“不思考”的強化學習模式能夠強制模型僅輸出精簡的最終答案,從而顯著降低 GPU 內存占用。張凱鵬對 DeepTech 表示,這種新模式對計算資源相對有限的中小企業或學校實驗室具有重要的意義。通過采用這種優化方式,即使僅配備中低端顯卡(如 40GB 顯存)也能夠開展大模型相關的強化學習微調研究,顯著降低了研究門檻。

在實際應用場景中,如移動端、自動駕駛系統、實時響應系統和需要快速迭代的開發環境等,資源約束往往是最關鍵的考量因素之一。在這種條件下,若需滿足快速微調的需求,采用“不思考”微調方式則顯示出其獨特優勢。因此,在移動計算、醫療影像分析等必須在本地完成微調的應用場景中,當資源成本成為主要考量因素時,“不思考”微調方式展現出顯著的實用價值。

值得注意的是,這一研究方向已獲得業界的廣泛關注。當前主流大模型廠商(如阿里云發布的通義千問 2.5 和字節跳動的豆包大模型 1.5)在模型設計中已開始整合思考模式的選擇機制。

這種方法不僅解決了資源受限環境下的微調效率問題,還避免了因計算資源不足導致的性能下降,為邊緣計算和移動端 AI 應用開辟了新的技術可能性。

日前,相關論文以《思考與不思考:基于規則的視覺強化微調中的顯式思考研究》(Think or Not Think: A Study of Explicit Thinking in Rule-Based Visual Reinforcement Fine-Tuning)為題發表在預印本網站arXiv[1]。李明是第一作者,張凱鵬擔任通訊作者。


圖丨相關論文(來源:arXiv)



“不思考”竟成微調最優路徑?

在研究初期,研究人員提出將基礎規則的強化學習(CLS-RL,Classification Reinforcement Learning)應用于分類任務,試圖通過可驗證的獎勵機制來促進多模態大模型進行顯式思考。

然而,實驗過程中發現,以 DeepSeek-R1 為代表的大模型在強微調時會出現回答長度持續增加的現象,而 CLS-RL 在圖像分類任務中的回答長度卻呈現縮短趨勢。

值得注意的是,訓練完成后模型的思考過程對最終答案的貢獻十分有限。這一現象促使研究人員提出了關鍵假設:在視覺感知任務(如圖像分類)中,模型性能更多依賴于對圖像本身的感知能力而非復雜的推理過程。


圖丨不同微調階段的響應長度和準確獎勵的變化(來源:arXiv)

基于這一重要發現,研究團隊創新性地調整了微調策略,讓模型自發減少不必要的思考環節,直接輸出答案而非采用“先思考再回答”的傳統模式。

在少樣本圖像分類微調任務中,該框架的創新性主要體現在兩個關鍵方面:

首先,研究團隊創造性地將 DeepSeek-R1 的獎勵機制引入分類任務,通過建立可驗證的獎勵體系,將多模態大模型的分類能力與傳統強化學習相結合,使用分類類別名稱作為獎勵函數來替代傳統的監督學習損失函數,這種設計使得模型能夠直接優化整體回答策略而非局部 token 級別的優化。

其次,借鑒 DeepSeek-R1 的成功經驗,采用結構化輸出獎勵機制,要求模型按照預設格式輸出回答,在確保答案可驗證性的同時鼓勵模型進行多樣化探索。


(來源:arXiv)

令人驚喜的是,這種簡化策略不僅在特定領域任務上超越了 CLS-RL,在泛化能力方面也展現出顯著優勢,同時大幅提升了訓練收斂速度,并大幅縮短了訓練時間(減少約 94%)。

結果顯示,在 11 個數據集中,“不思考”策略在 10 個數據集中的表現優于 CLS-RL,最終平均準確率比 CLS-RL 高出 3.14%。這表明,不包含思考過程的 RFT 能夠有效提升模型在分類任務上的性能,優于包含思考過程的 RFT。

與傳統 SFT 方法相比,CLS-RL 有效避免了模型對訓練數據的機械記憶和由此引發的災難性遺忘問題,而是引導模型學習任務的本質特征(如圖像分類中的背景、光照等關鍵要素)。


(來源:arXiv)

這種學習方式使得模型在未經微調的數據集上也能保持良好性能,研究團隊將這種現象稱為“免費午餐”(free-lunch)泛化效應。張凱鵬表示:“這種學習本質特征的能力顯著降低了對特定領域數據的依賴性,不僅有效防止了知識遺忘,還實現了優異的跨領域遷移性能。”

為進一步探究顯式思考對 RFT 過程的影響機制,他們提出了“先回答后思考”(Think-After-Answer)的創新方法,通過讓模型先輸出答案再生成思考過程的方式來減輕思考環節對決策的潛在干擾。

研究人員在數學推理、空間認知和謎題解答等多種任務上對“不思考”策略進行了系統驗證,并對比分析了 2B 和 7B 兩種規模模型的性能表現。

結果顯示,在 2B 模型中,“不思考”的微調方式在所有任務(包括數學推理)上都優于基于思考的 RFT,而“先回答后思考”的表現居中。李明對此解釋說道:“在處理復雜數學問題時,2B 模型由于參數量有限,難以生成高質量的推理鏈條。因此,即使在需要復雜推理的任務中,強制引入思考環節也無法帶來性能提升。”

然而當模型規模擴大到 7B 時,情況發生了顯著變化:更大規模的模型已經具備生成有效思維鏈的能力,在數學等復雜推理任務中,顯式思考的微調方式展現出明顯優勢。


(來源:arXiv)

RFT 的核心優勢在于其能夠顯著降低數據標注和領域適配的成本。具體而言,若模型在自然圖像分類任務上通過 RFT 完成微調,其學到的底層任務知識可能遷移至其他高標注成本領域(如醫療圖像或遙感圖像),從而避免重復收集標注數據的開銷。

這種遷移能力的實現關鍵在于 RFT 是否真正教會模型理解任務本質,而非簡單地記憶訓練數據。如果模型能夠通過 RFT 掌握通用的問題解決范式,而非局限于特定數據分布,那么這種能力有望擴展到更多標注資源稀缺的領域,從而實現跨領域性能提升與成本節約的平衡。

該研究不僅揭示了思考過程在不同任務中的差異化作用,建立了模型規模與思考策略有效性的關聯規律,還為 RFT 在實際應用中的跨領域遷移潛力提供了理論支撐,對推動大模型的高效微調和實際部署具有重要的指導意義。



為構建通用大模型提供新思路

張凱鵬團隊主要聚焦于多模態理解與生成、多模態評測等方向的研究。在評測體系構建方面,他們系統性地研究了包括單模態任務(如語言或代碼相關任務)和多模態任務在內的各類評測任務,并先后構建了一系列涵蓋通用能力和針對各類下游應用場景及專項能力的評測基準體系。

通過全面的評測實踐,研究團隊深刻認識到構建真正通用的多模態大模型面臨巨大挑戰,特別是在實現廣泛場景覆蓋能力方面存在的困難。


圖丨李明(左)與張凱鵬(右)(來源:張凱鵬)

在團隊早期的研究工作中,曾探索將多模態單一模型應用于各類視覺任務,包括多種分類任務及其他細分領域任務。研究發現,即便使用所有細分任務的數據進行聯合訓練,所得模型在多數任務上的表現仍顯著落后于專家模型。

“通過采用自適應思考的強化學習微調方法,有望訓練出在多個細分任務上均表現優異的通用大模型,這一發現為如何使單一模型適應多樣化任務需求方面提供了重要啟示。”張凱鵬說。

基于這一認識,該團隊當前正重點研究如何根據具體任務屬性和模型能力水平,自適應地確定最優的訓練策略和思考模式。這一研究方向為 AI 模型的訓練優化開辟了新思路。

以自動駕駛為例,對于簡單的感知類任務(如障礙物檢測),采用“不思考”的直接響應模式更為高效;而對于復雜的決策任務(如路徑規劃),則需要模型進行深度推理和規劃。

在現有自動駕駛系統中,通常采用多個專家模型并行處理不同任務。若將所有任務數據輸入單一模型,不僅難以實現任務間的協同促進,反而可能引發任務沖突。因此,自適應思考機制(Adaptive-Thinking)的引入,有望減少任務沖突,增強正向遷移,使單一模型能夠勝任更多任務,這對工業場景的實際部署具有重要意義。

與此同時,他們還在積極探索多任務混合訓練的新范式,旨在使混合模型在保持通用性的同時,達到甚至超越專家模型的性能水平,這或將為多模態大模型的發展開辟新的技術路徑。

此外,本次研究的發現還促使該團隊深入思考 AI 系統與人類認知和思考方式的差異,特別是在資源分配和任務處理機制方面的不同特性。這些基礎性的探索不僅有助于揭示 AI 與人類智能的本質差異,也可能為未來大模型框架的創新提供重要參考。

參考資料:

1.https://arxiv.org/pdf/2503.16188

2.https://github.com/minglllli/CLS-RL/tree/main

排版:劉雅坤、何晨龍

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
以色列軍方:已確認伊朗在生產核彈的武器零部件方面取得具體進展,表明伊朗政權正在接近無法回頭的地步

以色列軍方:已確認伊朗在生產核彈的武器零部件方面取得具體進展,表明伊朗政權正在接近無法回頭的地步

和訊網
2025-06-13 12:01:03
又現迷之操作,華為Pura80標準版手機接口竟倒退成USB 2.0

又現迷之操作,華為Pura80標準版手機接口竟倒退成USB 2.0

熱點科技
2025-06-13 18:36:36
吳京太難了?籌備了10年的《鏢人》,還沒上映,女主就塌房了!

吳京太難了?籌備了10年的《鏢人》,還沒上映,女主就塌房了!

動物奇奇怪怪
2025-06-13 03:07:33
恐怖如斯!今年季后賽福斯特執裁的比賽 步行者0-5 雷霆4-0

恐怖如斯!今年季后賽福斯特執裁的比賽 步行者0-5 雷霆4-0

直播吧
2025-06-14 11:49:26
顛覆認知!男優嚴選「最想合作」女優紅黑榜揭曉 (2)

顛覆認知!男優嚴選「最想合作」女優紅黑榜揭曉 (2)

TVB的四小花
2025-06-15 05:56:17
鄭州小米女車主連撞16車后續:正臉照曝光,邁巴赫車主欲哭無淚

鄭州小米女車主連撞16車后續:正臉照曝光,邁巴赫車主欲哭無淚

chen7
2025-06-14 23:35:57
身處異國他鄉的陪讀媽媽,為解決兒子青春期的困擾,竟決定這么做

身處異國他鄉的陪讀媽媽,為解決兒子青春期的困擾,竟決定這么做

南山青松
2025-06-11 17:01:44
香港歌手60大壽席開15桌,鄺美云穿西裝好端莊,同框袁潔瑩沒交流

香港歌手60大壽席開15桌,鄺美云穿西裝好端莊,同框袁潔瑩沒交流

涵豆說娛
2025-06-14 17:14:41
我出差巴基斯坦,意外看到穆斯林女人面紗下的秘密,她給我兩個選擇

我出差巴基斯坦,意外看到穆斯林女人面紗下的秘密,她給我兩個選擇

紅豆講堂
2025-05-28 14:34:55
中產面臨的困境:正在被悄悄清算

中產面臨的困境:正在被悄悄清算

流蘇晚晴
2025-06-12 20:15:28
新四軍宣傳部長57歲任上海市委書記,1983年被開除黨籍

新四軍宣傳部長57歲任上海市委書記,1983年被開除黨籍

樂趣紀史
2025-06-14 19:37:01
7月起,我國將明令禁止收取這5種物業費,業主們還需早知道!

7月起,我國將明令禁止收取這5種物業費,業主們還需早知道!

詩詞中國
2025-06-14 14:09:57
廣州同學聚會吃了16萬6,請客的人付完錢先走,剩下的人卻翻臉了

廣州同學聚會吃了16萬6,請客的人付完錢先走,剩下的人卻翻臉了

詭譎怪談
2025-06-09 08:45:42
寧波樓市捷雷不及掩耳,寧波樓市鄞州區房價從24000元跌至23000元

寧波樓市捷雷不及掩耳,寧波樓市鄞州區房價從24000元跌至23000元

有事問彭叔
2025-06-13 21:48:39
喪鐘已敲響,新能源汽車金融泡沫已到崩的前夜?

喪鐘已敲響,新能源汽車金融泡沫已到崩的前夜?

米筐投資
2025-05-30 07:18:09
俄軍再次擊落自己戰機,伊朗只是俄烏戰爭一枚棋子

俄軍再次擊落自己戰機,伊朗只是俄烏戰爭一枚棋子

史政先鋒
2025-06-14 19:32:21
只有女人,沒一個男性的部落,她們怎么繁衍后代?羞于說出口!

只有女人,沒一個男性的部落,她們怎么繁衍后代?羞于說出口!

大千世界觀
2025-06-13 19:37:58
世界最強棋士戰決賽,申真谞如果輸了,韓國棋院恐為天下笑

世界最強棋士戰決賽,申真谞如果輸了,韓國棋院恐為天下笑

月滿大江流
2025-06-14 20:52:21
他是化學博士,也是格斗冠軍!一拳把史泰龍打進ICU的“學霸猛男”,晚年患癌卻讓死神敗退!

他是化學博士,也是格斗冠軍!一拳把史泰龍打進ICU的“學霸猛男”,晚年患癌卻讓死神敗退!

跑步心情
2025-06-14 18:48:12
惡魔醫生劉翔峰,罪行累累,喪心病狂!

惡魔醫生劉翔峰,罪行累累,喪心病狂!

燕梳樓頻道
2025-06-12 22:49:14
2025-06-15 08:35:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評論獨家合作
15294文章數 513782關注度
往期回顧 全部

科技要聞

一輛新車比特斯拉FSD都便宜,全行業陪葬?

頭條要聞

伊朗數小時內或再襲擊 以色列進入"前所未有緊急狀態"

頭條要聞

伊朗數小時內或再襲擊 以色列進入"前所未有緊急狀態"

體育要聞

約戰天王山,步行者G4輸在了哪?

娛樂要聞

小S迎47歲生日,首個生日沒大S陪伴

財經要聞

樓市權威發聲

汽車要聞

長城為了拿環塔冠軍有多拼?魏建軍在下一盤大棋!

態度原創

時尚
教育
數碼
本地
房產

中年女人少穿黑色和灰色,年輕色穿出減齡效果,看起來嫩十歲

教育要聞

分數之外,孝道滿分:一場高考后的溫情禮贊

數碼要聞

達爾優高校電競賽成都站12進4晉級賽即將燃起!

本地新聞

最近的打工人,都在熬夜看這劇逐幀學習職場小技巧

房產要聞

又一城購房補貼!買房就發錢,正在海南樓市瘋狂擴散!

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 熟女俱乐部五十路六十路av| 无遮掩60分钟从头啪到尾| 亚洲va中文字幕无码一二三区| 黑人巨大精品oideo| 秋霞无码久久一区二区| 国产精品原创av片国产日韩| 在线观看肉片av网站免费| 99久久精品免费观看国产| 精品乱码卡1卡2卡3免费开放| 丰满少妇夜夜爽爽高潮水| 中文字幕无码精品亚洲资源网久久| 丰满少妇熟女高潮流白浆| 漂亮人妻去按摩被按中出| 日本大乳高潮视频在线观看| 国产精华av午夜在线观看| 国产精品亚洲αv天堂无码| 天干夜天天夜天干天2004年| 国产精品va在线播放我和闺蜜| 亚洲大尺度专区无码浪潮av| 国产一区二区无码蜜芽精品| 午夜精品国产精品大乳美女| 精品国产成人网站一区在线| 亚洲综合熟女久久久30p| 乱人伦人妻中文字幕在线入口| 亚洲中文字幕无码av永久| 久久久一本精品久久精品六六| 亚洲综合伊人久久综合| 国产成人精品微拍视频网址| 青青青在线香蕉国产精品| 碰超免费人妻中文字幕| 337p日本大胆欧美裸体艺术| 国内精品美女a∨在线播放| 久久精品人人做人人爱爱| 日本高清视频永久网站www| 风流少妇按摩来高潮| 久久精品国产精品亚洲艾草网| 波多野结衣一区二区三区av高清| 纯爱无遮挡h肉动漫在线播放| 天天夜碰日日摸日日澡性色av| 日韩精品一区二区午夜成人版| 伊伊人成亚洲综合人网7777|