近期,上海人工智能實驗室實習生李明與張凱鵬研究員的團隊,探討了在多模態大模型規則基礎的強化學習微調(RFT,Reinforcement Fine-Tuning)中顯式思考過程的作用。
該研究揭示了一個具有重要實踐意義的發現:以 DeepSeek-R1 為代表的大模型往往需要“先思考再回答”的推理模式,但在簡單視覺任務場景下,采用“不思考”強化學習(No-Thinking-RL)策略反而能夠顯著提高模型的微調效率和性能表現。
這一現象的背后涉及重要的計算資源優化機制。研究發現,與傳統監督式微調(SFT,Supervised Fine-Tuning)相比,RFT 會顯著增加 GPU 顯存需求。
具體表現為:一個原本僅需單張 80G 顯存 NVIDIA A100 顯卡即可完成的 SFT 任務,而采用 RFT 時可能需要 4 至 8 張同規格顯卡才能滿足需求。這種顯存占用的急劇增加主要源于 RFT 需要并行處理多個較長序列的模型輸出。
“不思考”的強化學習模式能夠強制模型僅輸出精簡的最終答案,從而顯著降低 GPU 內存占用。張凱鵬對 DeepTech 表示,這種新模式對計算資源相對有限的中小企業或學校實驗室具有重要的意義。通過采用這種優化方式,即使僅配備中低端顯卡(如 40GB 顯存)也能夠開展大模型相關的強化學習微調研究,顯著降低了研究門檻。
在實際應用場景中,如移動端、自動駕駛系統、實時響應系統和需要快速迭代的開發環境等,資源約束往往是最關鍵的考量因素之一。在這種條件下,若需滿足快速微調的需求,采用“不思考”微調方式則顯示出其獨特優勢。因此,在移動計算、醫療影像分析等必須在本地完成微調的應用場景中,當資源成本成為主要考量因素時,“不思考”微調方式展現出顯著的實用價值。
值得注意的是,這一研究方向已獲得業界的廣泛關注。當前主流大模型廠商(如阿里云發布的通義千問 2.5 和字節跳動的豆包大模型 1.5)在模型設計中已開始整合思考模式的選擇機制。
這種方法不僅解決了資源受限環境下的微調效率問題,還避免了因計算資源不足導致的性能下降,為邊緣計算和移動端 AI 應用開辟了新的技術可能性。
日前,相關論文以《思考與不思考:基于規則的視覺強化微調中的顯式思考研究》(Think or Not Think: A Study of Explicit Thinking in Rule-Based Visual Reinforcement Fine-Tuning)為題發表在預印本網站arXiv[1]。李明是第一作者,張凱鵬擔任通訊作者。
圖丨相關論文(來源:arXiv)
“不思考”竟成微調最優路徑?
在研究初期,研究人員提出將基礎規則的強化學習(CLS-RL,Classification Reinforcement Learning)應用于分類任務,試圖通過可驗證的獎勵機制來促進多模態大模型進行顯式思考。
然而,實驗過程中發現,以 DeepSeek-R1 為代表的大模型在強微調時會出現回答長度持續增加的現象,而 CLS-RL 在圖像分類任務中的回答長度卻呈現縮短趨勢。
值得注意的是,訓練完成后模型的思考過程對最終答案的貢獻十分有限。這一現象促使研究人員提出了關鍵假設:在視覺感知任務(如圖像分類)中,模型性能更多依賴于對圖像本身的感知能力而非復雜的推理過程。
圖丨不同微調階段的響應長度和準確獎勵的變化(來源:arXiv)
基于這一重要發現,研究團隊創新性地調整了微調策略,讓模型自發減少不必要的思考環節,直接輸出答案而非采用“先思考再回答”的傳統模式。
在少樣本圖像分類微調任務中,該框架的創新性主要體現在兩個關鍵方面:
首先,研究團隊創造性地將 DeepSeek-R1 的獎勵機制引入分類任務,通過建立可驗證的獎勵體系,將多模態大模型的分類能力與傳統強化學習相結合,使用分類類別名稱作為獎勵函數來替代傳統的監督學習損失函數,這種設計使得模型能夠直接優化整體回答策略而非局部 token 級別的優化。
其次,借鑒 DeepSeek-R1 的成功經驗,采用結構化輸出獎勵機制,要求模型按照預設格式輸出回答,在確保答案可驗證性的同時鼓勵模型進行多樣化探索。
(來源:arXiv)
令人驚喜的是,這種簡化策略不僅在特定領域任務上超越了 CLS-RL,在泛化能力方面也展現出顯著優勢,同時大幅提升了訓練收斂速度,并大幅縮短了訓練時間(減少約 94%)。
結果顯示,在 11 個數據集中,“不思考”策略在 10 個數據集中的表現優于 CLS-RL,最終平均準確率比 CLS-RL 高出 3.14%。這表明,不包含思考過程的 RFT 能夠有效提升模型在分類任務上的性能,優于包含思考過程的 RFT。
與傳統 SFT 方法相比,CLS-RL 有效避免了模型對訓練數據的機械記憶和由此引發的災難性遺忘問題,而是引導模型學習任務的本質特征(如圖像分類中的背景、光照等關鍵要素)。
(來源:arXiv)
這種學習方式使得模型在未經微調的數據集上也能保持良好性能,研究團隊將這種現象稱為“免費午餐”(free-lunch)泛化效應。張凱鵬表示:“這種學習本質特征的能力顯著降低了對特定領域數據的依賴性,不僅有效防止了知識遺忘,還實現了優異的跨領域遷移性能。”
為進一步探究顯式思考對 RFT 過程的影響機制,他們提出了“先回答后思考”(Think-After-Answer)的創新方法,通過讓模型先輸出答案再生成思考過程的方式來減輕思考環節對決策的潛在干擾。
研究人員在數學推理、空間認知和謎題解答等多種任務上對“不思考”策略進行了系統驗證,并對比分析了 2B 和 7B 兩種規模模型的性能表現。
結果顯示,在 2B 模型中,“不思考”的微調方式在所有任務(包括數學推理)上都優于基于思考的 RFT,而“先回答后思考”的表現居中。李明對此解釋說道:“在處理復雜數學問題時,2B 模型由于參數量有限,難以生成高質量的推理鏈條。因此,即使在需要復雜推理的任務中,強制引入思考環節也無法帶來性能提升。”
然而當模型規模擴大到 7B 時,情況發生了顯著變化:更大規模的模型已經具備生成有效思維鏈的能力,在數學等復雜推理任務中,顯式思考的微調方式展現出明顯優勢。
(來源:arXiv)
RFT 的核心優勢在于其能夠顯著降低數據標注和領域適配的成本。具體而言,若模型在自然圖像分類任務上通過 RFT 完成微調,其學到的底層任務知識可能遷移至其他高標注成本領域(如醫療圖像或遙感圖像),從而避免重復收集標注數據的開銷。
這種遷移能力的實現關鍵在于 RFT 是否真正教會模型理解任務本質,而非簡單地記憶訓練數據。如果模型能夠通過 RFT 掌握通用的問題解決范式,而非局限于特定數據分布,那么這種能力有望擴展到更多標注資源稀缺的領域,從而實現跨領域性能提升與成本節約的平衡。
該研究不僅揭示了思考過程在不同任務中的差異化作用,建立了模型規模與思考策略有效性的關聯規律,還為 RFT 在實際應用中的跨領域遷移潛力提供了理論支撐,對推動大模型的高效微調和實際部署具有重要的指導意義。
為構建通用大模型提供新思路
張凱鵬團隊主要聚焦于多模態理解與生成、多模態評測等方向的研究。在評測體系構建方面,他們系統性地研究了包括單模態任務(如語言或代碼相關任務)和多模態任務在內的各類評測任務,并先后構建了一系列涵蓋通用能力和針對各類下游應用場景及專項能力的評測基準體系。
通過全面的評測實踐,研究團隊深刻認識到構建真正通用的多模態大模型面臨巨大挑戰,特別是在實現廣泛場景覆蓋能力方面存在的困難。
圖丨李明(左)與張凱鵬(右)(來源:張凱鵬)
在團隊早期的研究工作中,曾探索將多模態單一模型應用于各類視覺任務,包括多種分類任務及其他細分領域任務。研究發現,即便使用所有細分任務的數據進行聯合訓練,所得模型在多數任務上的表現仍顯著落后于專家模型。
“通過采用自適應思考的強化學習微調方法,有望訓練出在多個細分任務上均表現優異的通用大模型,這一發現為如何使單一模型適應多樣化任務需求方面提供了重要啟示。”張凱鵬說。
基于這一認識,該團隊當前正重點研究如何根據具體任務屬性和模型能力水平,自適應地確定最優的訓練策略和思考模式。這一研究方向為 AI 模型的訓練優化開辟了新思路。
以自動駕駛為例,對于簡單的感知類任務(如障礙物檢測),采用“不思考”的直接響應模式更為高效;而對于復雜的決策任務(如路徑規劃),則需要模型進行深度推理和規劃。
在現有自動駕駛系統中,通常采用多個專家模型并行處理不同任務。若將所有任務數據輸入單一模型,不僅難以實現任務間的協同促進,反而可能引發任務沖突。因此,自適應思考機制(Adaptive-Thinking)的引入,有望減少任務沖突,增強正向遷移,使單一模型能夠勝任更多任務,這對工業場景的實際部署具有重要意義。
與此同時,他們還在積極探索多任務混合訓練的新范式,旨在使混合模型在保持通用性的同時,達到甚至超越專家模型的性能水平,這或將為多模態大模型的發展開辟新的技術路徑。
此外,本次研究的發現還促使該團隊深入思考 AI 系統與人類認知和思考方式的差異,特別是在資源分配和任務處理機制方面的不同特性。這些基礎性的探索不僅有助于揭示 AI 與人類智能的本質差異,也可能為未來大模型框架的創新提供重要參考。
參考資料:
1.https://arxiv.org/pdf/2503.16188
2.https://github.com/minglllli/CLS-RL/tree/main
排版:劉雅坤、何晨龍
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.