OpenAI強化微調(diào)終于上線了：幾十個樣本就可輕松打造AI專家

2025-05-09 15:37:22　來源: AI寒武紀

江蘇舉報

分享至

分享一個好消息！還記得去年12月就提過的強化微調(diào)（Reinforcement Fine-Tuning, RFT）嗎？現(xiàn)在，它正式登陸OpenAI o4-mini模型了！

簡單說，RFT 就是用思維鏈推理和任務專屬的評分機制來提升模型在特定復雜領域的表現(xiàn)，可以將AI模型從高中學生水平輕松提升到了專家博士水平。通過強化微調(diào)，你可以輕松將模型的某一個領域的專業(yè)能力迅速提升，打造出各種AI專家

另外，GPT-4.1 nano現(xiàn)在也開放微調(diào)了！這意味著你可以把OpenAI最快、最便宜的模型，針對你的具體場景進行“特訓”，性價比拉滿！

目前，RFT已向經(jīng)過驗證的組織開放。OpenAI還給出了個福利：分享你的數(shù)據(jù)集，不僅能幫助改進未來的OpenAI模型，還能獲得50%的折扣。

官方已經(jīng)準備了強化微調(diào)指南，第一時間給大家劃個重點

強化微調(diào)RFT：到底能干啥？

RFT的核心目標是提升模型在特定、答案可驗證任務上的性能

啥時候最該用RFT？

特別適合那些需要模型做出正確且可驗證決策的“智能體式”工作流。RFT通過明確的評分標準，以及基于代碼或大語言模型（LLM）的“裁判”（Grader）來衡量任務的成功度、事實準確性或政策合規(guī)性

OpenAI的早期用戶主要集中在三個場景：

1.指令變代碼：把開放式指令轉(zhuǎn)換成結(jié)構(gòu)化的代碼、配置或模板，并且這些產(chǎn)出必須通過確定性的測試。
2.雜亂文本提煉精華：從非結(jié)構(gòu)化文本中提取可驗證的事實和摘要，并以JSON或其他結(jié)構(gòu)化模式輸出。
3.復雜規(guī)則精準應用：當信息細微、量大、層級復雜或事關重大時，進行精細的標簽或策略決策。

實戰(zhàn)案例秀肌肉

下面這些公司已經(jīng)用RFT搞出了名堂：

1. 指令變代碼

模型需要理解隱藏的領域限制，生成結(jié)構(gòu)化輸出，如代碼、查詢語句或基礎設施模板。輸出必須滿足多重正確性條件，成功與否通常是確定性評分。

ChipStack：為半導體設計“智能布線”

?公司：ChipStack，搞AI驅(qū)動的芯片設計和驗證工具。
?痛點：將設計接口綁定到驗證IP（預制驗證組件）是件耗時耗人力的苦差事，涉及大量信號映射，需要深厚的領域知識。
?目標：訓練OpenAI模型自動完成這項任務。ChipStack準備了不到50個樣本的數(shù)據(jù)集，進行了多次RFT實驗。
?評分器思路：用Python定義了一個比較預測輸出（一系列名值對）與期望答案的評分器，計算精確率和召回率的F1分數(shù)。
?成果：o1-mini和o3-mini模型性能均提升了約12個百分點。微調(diào)后的模型在識別何時“不”應用布線方面進步巨大，這對于包含大量可選信號的商業(yè)驗證IP至關重要

2. 雜亂文本提煉精華

這類任務通常涉及細微差別，需要明確的分類指南和領域?qū)＜业墓沧R。評分信號的一致性對RFT效果至關重要。

Ambience Healthcare：精準分配ICD-10醫(yī)療編碼

?公司：Ambience，AI平臺，為臨床醫(yī)生減輕行政負擔，確保文檔準確合規(guī)。
?痛點：ICD-10編碼（約7萬個代碼）是醫(yī)學中最復雜的行政任務之一，錯誤可能導致巨額罰款。
?目標：訓練一個能聽取就診音頻、結(jié)合EHR信息、推薦ICD-10編碼且準確率超過專家臨床醫(yī)生的推理系統(tǒng)。
?成果：在包含數(shù)百次就診的黃金測試集上，RFT將模型性能從落后人類專家13個百分點提升到領先12個百分點，大致消除了訓練有素醫(yī)生所犯編碼錯誤的四分之一。
- ? o3-mini (基礎): 0.39
- ? 醫(yī)生基線: 0.45
- ? RFT調(diào)優(yōu)的 o3-mini: 0.57

3. 復雜規(guī)則精準應用

將非結(jié)構(gòu)化輸入中的可驗證事實或?qū)嶓w提取到定義清晰的模式中（如JSON、代碼、引文等）。精確、連續(xù)的評分方法（如F1、模糊匹配、數(shù)值準確性）是關鍵。

Accordance：稅務分析的“專家級”推理

?公司：Accordance，為稅務、審計和CPA團隊打造平臺。
?痛點：稅務領域極其復雜，法規(guī)多變，推理要求高。
?目標：構(gòu)建一個能處理復雜稅務場景并保持高準確率的系統(tǒng)，且能隨稅法變化而適應。
?評分器思路：一個細致的評分清單，針對稅務分析的各個方面分別給分，例如：
- ?[+0.05]正確識別股權(quán)百分比
- ?[+0.1]正確計算年度分配
- ?[+0.15]正確分配普通收入
- ? ...等等多達十余項細致的評分點。
?成果：稅務分析任務性能比基礎模型提升近40%，在TaxBench等基準上優(yōu)于其他主流模型。經(jīng)稅務專家評估，微調(diào)模型展現(xiàn)出專家級推理能力。

評估 (Evals) 是基石

OpenAI強烈建議：在實施RFT之前，務必為你的任務創(chuàng)建并運行評估 (eval)。
如果你的模型在評估中得分是最低或最高，RFT就沒啥用了。RFT需要模型在不同答案質(zhì)量間有區(qū)分度才能學習。如果評估得分在最低和最高分之間，那就有戲。

一個有效的評估能揭示出人類專家普遍認同、但當前模型難以解決的痛點——這正是RFT大顯身手的好機會。

如何從RFT中獲得更好結(jié)果？

想讓微調(diào)模型效果更好，主要從兩方面下功夫：明確任務定義和強化評分方案。

重新定義或澄清你的任務

好任務能讓模型有公平的學習機會，也讓你能量化改進。

?從模型偶爾能解決的任務開始：如果模型現(xiàn)在完全做不對，RFT也無從下手。
?確保每個答案都能被評分：評分器必須能自動打分。支持多種評分器類型（包括自定義Python和LLM裁判）。
?消除“正確答案”的模糊性：如果專家對答案都有分歧，任務就太模糊了。改寫提示、增加上下文，或拆分任務。
?限制“蒙對”的可能性：如果是選擇題且答案明顯，模型可能靠猜。增加類別、要求簡短開放式文本，或調(diào)整格式讓猜測代價變高。

強化你的評分器

清晰、魯棒的評分方案對RFT至關重要。

?用平滑分數(shù)而非“通過/失敗”：漸變的分數(shù)能提供更好的訓練信號。
?警惕“獎勵作弊” (Reward Hacking)：模型可能找到捷徑獲得高分，而非真正掌握技能。
?避免數(shù)據(jù)傾斜：如果數(shù)據(jù)集中某個標簽占比過高，平衡數(shù)據(jù)集或增加稀有案例權(quán)重。
?當代碼評分不足時，使用LLM裁判：對于復雜的開放式回答，讓另一個OpenAI模型來評分。確保：
- ?評估裁判本身：用多個候選答案和正確答案測試LLM裁判，確保評分穩(wěn)定且符合偏好。
- ?提供少樣本示例：在提示中包含優(yōu)秀、一般和差勁的答案示例，提升裁判效果。

RFT的潛力巨大，尤其是在那些對精度和可靠性要求極高的專業(yè)領域。想了解更多，可以去OpenAI Cookbook翻翻菜譜，或者深入研究官方文檔

? 模型介紹
https://platform.openai.com/docs/models
? 強化微調(diào)指南
https://platform.openai.com/docs/guides/reinforcement-fine-tuning
? 評分器
https://platform.openai.com/docs/guides/graders
? 模型優(yōu)化概覽
https://platform.openai.com/docs/guides/model-optimization

參考：
https://platform.openai.com/docs/guides/rft-use-cases?chipstack=use-case

?星標AI寒武紀，好內(nèi)容不錯過?

用你的贊和在看告訴我～

求贊

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.