大香大香伊人在钱线久久,亚洲日韩欧美国产高清αv,日本强伦姧人妻久久影片,亚洲国产成人欧美在线观看

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

OpenAI強化微調(diào)終于上線了:幾十個樣本就可輕松打造AI專家

0
分享至


分享一個好消息!還記得去年12月就提過的強化微調(diào)(Reinforcement Fine-Tuning, RFT)嗎?現(xiàn)在,它正式登陸OpenAI o4-mini模型了!

簡單說,RFT 就是用思維鏈推理任務專屬的評分機制來提升模型在特定復雜領域的表現(xiàn),可以將AI模型從高中學生水平輕松提升到了專家博士水平。 通過強化微調(diào),你可以輕松將模型的某一個領域的專業(yè)能力迅速提升,打造出各種AI專家

另外,GPT-4.1 nano現(xiàn)在也開放微調(diào)了!這意味著你可以把OpenAI最快、最便宜的模型,針對你的具體場景進行“特訓”,性價比拉滿!

目前,RFT已向經(jīng)過驗證的組織開放。OpenAI還給出了個福利:分享你的數(shù)據(jù)集,不僅能幫助改進未來的OpenAI模型,還能獲得50%的折扣

官方已經(jīng)準備了強化微調(diào)指南,第一時間給大家劃個重點

強化微調(diào)RFT:到底能干啥?

RFT的核心目標是提升模型在特定、答案可驗證任務上的性能

啥時候最該用RFT?

特別適合那些需要模型做出正確且可驗證決策的“智能體式”工作流。RFT通過明確的評分標準,以及基于代碼或大語言模型(LLM)的“裁判”(Grader)來衡量任務的成功度、事實準確性或政策合規(guī)性

OpenAI的早期用戶主要集中在三個場景:

  1. 1.指令變代碼:把開放式指令轉(zhuǎn)換成結(jié)構(gòu)化的代碼、配置或模板,并且這些產(chǎn)出必須通過確定性的測試。

  2. 2.雜亂文本提煉精華:從非結(jié)構(gòu)化文本中提取可驗證的事實和摘要,并以JSON或其他結(jié)構(gòu)化模式輸出。

  3. 3.復雜規(guī)則精準應用:當信息細微、量大、層級復雜或事關重大時,進行精細的標簽或策略決策。

實戰(zhàn)案例秀肌肉

下面這些公司已經(jīng)用RFT搞出了名堂:

1. 指令變代碼

模型需要理解隱藏的領域限制,生成結(jié)構(gòu)化輸出,如代碼、查詢語句或基礎設施模板。輸出必須滿足多重正確性條件,成功與否通常是確定性評分。

ChipStack:為半導體設計“智能布線”

  • ?公司:ChipStack,搞AI驅(qū)動的芯片設計和驗證工具。

  • ?痛點:將設計接口綁定到驗證IP(預制驗證組件)是件耗時耗人力的苦差事,涉及大量信號映射,需要深厚的領域知識。

  • ?目標:訓練OpenAI模型自動完成這項任務。ChipStack準備了不到50個樣本的數(shù)據(jù)集,進行了多次RFT實驗。

  • ?評分器思路:用Python定義了一個比較預測輸出(一系列名值對)與期望答案的評分器,計算精確率和召回率的F1分數(shù)。

  • ?成果:o1-mini和o3-mini模型性能均提升了約12個百分點。微調(diào)后的模型在識別何時“不”應用布線方面進步巨大,這對于包含大量可選信號的商業(yè)驗證IP至關重要


2. 雜亂文本提煉精華

這類任務通常涉及細微差別,需要明確的分類指南和領域?qū)<业墓沧R。評分信號的一致性對RFT效果至關重要。

Ambience Healthcare:精準分配ICD-10醫(yī)療編碼

  • ?公司:Ambience,AI平臺,為臨床醫(yī)生減輕行政負擔,確保文檔準確合規(guī)。

  • ?痛點:ICD-10編碼(約7萬個代碼)是醫(yī)學中最復雜的行政任務之一,錯誤可能導致巨額罰款。

  • ?目標:訓練一個能聽取就診音頻、結(jié)合EHR信息、推薦ICD-10編碼且準確率超過專家臨床醫(yī)生的推理系統(tǒng)。

  • ?成果:在包含數(shù)百次就診的黃金測試集上,RFT將模型性能從落后人類專家13個百分點提升到領先12個百分點,大致消除了訓練有素醫(yī)生所犯編碼錯誤的四分之一

    • ? o3-mini (基礎): 0.39

    • ? 醫(yī)生基線: 0.45

    • ? RFT調(diào)優(yōu)的 o3-mini: 0.57


3. 復雜規(guī)則精準應用

將非結(jié)構(gòu)化輸入中的可驗證事實或?qū)嶓w提取到定義清晰的模式中(如JSON、代碼、引文等)。精確、連續(xù)的評分方法(如F1、模糊匹配、數(shù)值準確性)是關鍵。

Accordance:稅務分析的“專家級”推理

  • ?公司:Accordance,為稅務、審計和CPA團隊打造平臺。

  • ?痛點:稅務領域極其復雜,法規(guī)多變,推理要求高。

  • ?目標:構(gòu)建一個能處理復雜稅務場景并保持高準確率的系統(tǒng),且能隨稅法變化而適應。

  • ?評分器思路:一個細致的評分清單,針對稅務分析的各個方面分別給分,例如:

    • ?[+0.05]正確識別股權(quán)百分比

    • ?[+0.1]正確計算年度分配

    • ?[+0.15]正確分配普通收入

    • ? ...等等多達十余項細致的評分點。

  • ?成果:稅務分析任務性能比基礎模型提升近40%,在TaxBench等基準上優(yōu)于其他主流模型。經(jīng)稅務專家評估,微調(diào)模型展現(xiàn)出專家級推理能力。

評估 (Evals) 是基石

OpenAI強烈建議:在實施RFT之前,務必為你的任務創(chuàng)建并運行評估 (eval)
如果你的模型在評估中得分是最低或最高,RFT就沒啥用了。RFT需要模型在不同答案質(zhì)量間有區(qū)分度才能學習。如果評估得分在最低和最高分之間,那就有戲。

一個有效的評估能揭示出人類專家普遍認同、但當前模型難以解決的痛點——這正是RFT大顯身手的好機會。

如何從RFT中獲得更好結(jié)果?

想讓微調(diào)模型效果更好,主要從兩方面下功夫:明確任務定義強化評分方案

重新定義或澄清你的任務

好任務能讓模型有公平的學習機會,也讓你能量化改進。

  • ?從模型偶爾能解決的任務開始:如果模型現(xiàn)在完全做不對,RFT也無從下手。

  • ?確保每個答案都能被評分:評分器必須能自動打分。支持多種評分器類型(包括自定義Python和LLM裁判)。

  • ?消除“正確答案”的模糊性:如果專家對答案都有分歧,任務就太模糊了。改寫提示、增加上下文,或拆分任務。

  • ?限制“蒙對”的可能性:如果是選擇題且答案明顯,模型可能靠猜。增加類別、要求簡短開放式文本,或調(diào)整格式讓猜測代價變高。

強化你的評分器

清晰、魯棒的評分方案對RFT至關重要。

  • ?用平滑分數(shù)而非“通過/失敗”:漸變的分數(shù)能提供更好的訓練信號。

  • ?警惕“獎勵作弊” (Reward Hacking):模型可能找到捷徑獲得高分,而非真正掌握技能。

  • ?避免數(shù)據(jù)傾斜:如果數(shù)據(jù)集中某個標簽占比過高,平衡數(shù)據(jù)集或增加稀有案例權(quán)重。

  • ?當代碼評分不足時,使用LLM裁判:對于復雜的開放式回答,讓另一個OpenAI模型來評分。確保:

    • ?評估裁判本身:用多個候選答案和正確答案測試LLM裁判,確保評分穩(wěn)定且符合偏好。

    • ?提供少樣本示例:在提示中包含優(yōu)秀、一般和差勁的答案示例,提升裁判效果。

RFT的潛力巨大,尤其是在那些對精度和可靠性要求極高的專業(yè)領域。想了解更多,可以去OpenAI Cookbook翻翻菜譜,或者深入研究官方文檔

  • ? 模型介紹
    https://platform.openai.com/docs/models

  • ? 強化微調(diào)指南
    https://platform.openai.com/docs/guides/reinforcement-fine-tuning

  • ? 評分器
    https://platform.openai.com/docs/guides/graders

  • ? 模型優(yōu)化概覽
    https://platform.openai.com/docs/guides/model-optimization

參考:
https://platform.openai.com/docs/guides/rft-use-cases?chipstack=use-case

?星標AI寒武紀,好內(nèi)容不錯過?

用你的在看告訴我~

求贊

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
事關“蘇超”,江蘇省省長提出要求

事關“蘇超”,江蘇省省長提出要求

政知新媒體
2025-06-14 21:03:18
不要嘲笑印度

不要嘲笑印度

難得君
2025-05-08 10:09:16
無錫一家本土品牌連鎖藥店破產(chǎn),還牽涉70多起債務糾紛

無錫一家本土品牌連鎖藥店破產(chǎn),還牽涉70多起債務糾紛

揚子晚報
2025-06-14 14:36:37
二個重裝合成旅打得過以色列嗎?

二個重裝合成旅打得過以色列嗎?

混沌錄
2025-05-14 18:37:39
梁朝偉劉嘉玲在上海,兩人手牽手好恩愛,劉嘉玲臉變了撞臉蔡明

梁朝偉劉嘉玲在上海,兩人手牽手好恩愛,劉嘉玲臉變了撞臉蔡明

界史
2025-06-14 10:07:54
以軍再出手,哈梅內(nèi)伊遇襲,伊朗威脅祭出“殺手锏”,中方尷尬了

以軍再出手,哈梅內(nèi)伊遇襲,伊朗威脅祭出“殺手锏”,中方尷尬了

阿紿聊社會
2025-06-14 12:29:10
哈梅內(nèi)伊民心盡失,伊朗的神權(quán)獨裁該結(jié)束了

哈梅內(nèi)伊民心盡失,伊朗的神權(quán)獨裁該結(jié)束了

智慧生活筆記
2025-06-14 10:25:08
洛杉磯一片混亂中,中國大媽突然火了:誰管你這那的,撿瓶子要緊!

洛杉磯一片混亂中,中國大媽突然火了:誰管你這那的,撿瓶子要緊!

英國那些事兒
2025-06-13 23:18:00
楊穎被經(jīng)紀人當街訓罵照曝光!自費租房面試找工作,吃地攤無人識

楊穎被經(jīng)紀人當街訓罵照曝光!自費租房面試找工作,吃地攤無人識

史書無明
2025-05-28 21:51:52
太慘了!這個小三真的被白嫖,千萬資產(chǎn)被追回,還給別人生了孩子

太慘了!這個小三真的被白嫖,千萬資產(chǎn)被追回,還給別人生了孩子

火山詩話
2025-06-13 07:09:01
在澳門賭場欠下上千萬的債務,能跑掉嗎?看看疊碼仔是如何追債的

在澳門賭場欠下上千萬的債務,能跑掉嗎?看看疊碼仔是如何追債的

老謝談史
2025-06-14 18:30:00
羅帥宇這小伙子,還是太相信法律了

羅帥宇這小伙子,還是太相信法律了

熊太行
2025-06-13 15:46:03
大雨天熱情不減,國安vs亞泰共有46269人現(xiàn)場觀戰(zhàn)

大雨天熱情不減,國安vs亞泰共有46269人現(xiàn)場觀戰(zhàn)

懂球帝
2025-06-14 20:49:19
18強賽或有變數(shù)?西亞勁旅狀告國際足聯(lián),裁判不公,要重賽

18強賽或有變數(shù)?西亞勁旅狀告國際足聯(lián),裁判不公,要重賽

小皷拍客在北漂
2025-06-14 09:59:29
韋東奕真可憐,他根本沒有職稱!北京大學太不重視人才了

韋東奕真可憐,他根本沒有職稱!北京大學太不重視人才了

平老師666
2025-06-13 21:52:26
宗馥莉穿Gucci參加職代會,她燙了卷發(fā),人也瘦了,她挺漂亮的!

宗馥莉穿Gucci參加職代會,她燙了卷發(fā),人也瘦了,她挺漂亮的!

逍遙史記
2025-06-14 10:17:22
羅馬仕發(fā)布公開聲明致歉

羅馬仕發(fā)布公開聲明致歉

最江陰
2025-06-14 21:27:30
4元+可燃冰+深海科技+軍工+無人機,業(yè)績暴增284%,或漲至40元?

4元+可燃冰+深海科技+軍工+無人機,業(yè)績暴增284%,或漲至40元?

斯斯說市
2025-06-14 12:34:34
真是個慫貨

真是個慫貨

燕梳樓頻道
2025-06-14 13:43:41
萬萬沒想到!酷似馬云的范小勤,在被資本拋棄后,如今活成了這樣

萬萬沒想到!酷似馬云的范小勤,在被資本拋棄后,如今活成了這樣

歸史
2025-06-14 11:14:30
2025-06-15 04:11:00
AI寒武紀 incentive-icons
AI寒武紀
專注于人工智能,科技領域
715文章數(shù) 313關注度
往期回顧 全部

科技要聞

一輛新車比特斯拉FSD都便宜,全行業(yè)陪葬?

頭條要聞

以防長威脅哈梅內(nèi)伊:若繼續(xù)發(fā)射導彈 德黑蘭將成火海

頭條要聞

以防長威脅哈梅內(nèi)伊:若繼續(xù)發(fā)射導彈 德黑蘭將成火海

體育要聞

約戰(zhàn)天王山,步行者G4輸在了哪?

娛樂要聞

小S迎47歲生日,首個生日沒大S陪伴

財經(jīng)要聞

樓市權(quán)威發(fā)聲

汽車要聞

長城為了拿環(huán)塔冠軍有多拼?魏建軍在下一盤大棋!

態(tài)度原創(chuàng)

本地
親子
藝術
時尚
公開課

本地新聞

最近的打工人,都在熬夜看這劇逐幀學習職場小技巧

親子要聞

給18個月幼兒灌酒,無論出于什么心態(tài)都不該寬恕|新京報快評

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

中年女人少穿黑色和灰色,年輕色穿出減齡效果,看起來嫩十歲

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 国产成人精彩在线视频| 免费人成视频在线观看视频| 性中国妓女毛茸茸视频| 免费观看18禁无遮挡真人网站| 久天啪天天久久99久久| 亚洲成a人片在线观看的电影| 无码人妻丰满熟妇| 无码成人一区二区| 久久99精品久久久久婷婷暖| 亚洲夜色噜噜av在线观看| 国产一区丝袜在线播放| 性欧美熟妇videofreesex| 精品国产成人国产在线观看| av永久天堂一区二区三区| 亚洲精品久久区二区三区蜜桃臀| 国内精品久久久久伊人av| 国产成人手机高清在线观看网站| 亚洲精品无码久久久久sm| 国产亚洲一本大道中文在线| 最新亚洲精品国偷自产在线| 久久99精品久久久久久| 亚洲中文久久精品无码| 人妻有码中文字幕| 首页 综合国产 亚洲 丝袜日本| 亚 洲 视 频 高 清 无 码| 免费人成视频在线观看视频| 久久人妻公开中文字幕| 极品少妇hdxx麻豆hdxx| 一区二区三区中文字幕| 成人av片无码免费网站| 中文字幕无码免费久久9一区9| 视频一区视频二区制服丝袜| 久久先锋男人av资源网站| 无码人妻久久一区二区三区| 日韩色欲人妻无码精品av| 免费无码又爽又刺激一高潮| 国产伦精品一区二区三区妓女下载| 亚洲精品无码视频| 伊人情人色综合网站| 久久不见久久见免费影院视频观看| 日韩大陆欧美高清视频区|