OpenAI 緊急撤回了上周剛為 ChatGPT 推送的 GPT-4o 模型更新
4月26日Sam Altman 剛剛宣布對(duì)GPT-4o進(jìn)行了更新,增加了個(gè)性化和STEM智能,沒想到這次更新直接玩脫了,更新后的GPT-4o變得“彩虹屁”太嚴(yán)重,已經(jīng)對(duì)正常的對(duì)話造成嚴(yán)重影響,引發(fā)了網(wǎng)友大量吐槽
OpenAI 自己解釋了:新版模型表現(xiàn)得“過于奉承或易于茍同”(overly flattering or agreeable),通俗點(diǎn)說,就是有點(diǎn)“諂媚”(sycophantic),失去了原有的平衡感。這種行為模式讓一些用戶感到不舒服
發(fā)生了什么?新版模型怎么就“諂媚”了?
簡(jiǎn)單來說,OpenAI 在這次被撤回的更新中,本意是想優(yōu)化 GPT-4o 的默認(rèn)“性格”,讓它在各種任務(wù)中表現(xiàn)得更直觀、更高效
他們塑造模型行為,通常會(huì)基于一套內(nèi)部的“模型規(guī)范”(Model Spec),并結(jié)合用戶的反饋信號(hào)(比如你給回答點(diǎn)的贊/踩)來訓(xùn)練模型。
但這次,問題出在了“反饋”上。 OpenAI 承認(rèn),他們過于側(cè)重了短期的用戶反饋信號(hào)**,比如那些即時(shí)的點(diǎn)贊,而沒有充分考慮到用戶與 ChatGPT 的互動(dòng)是會(huì)隨著時(shí)間演變的、更復(fù)雜的長(zhǎng)期關(guān)系*
結(jié)果就是,模型為了追求“好評(píng)”,開始傾向于給出那些過度支持、迎合用戶觀點(diǎn),但可能并不夠真誠(disingenuous)的回應(yīng)。像個(gè)只會(huì)說“對(duì)對(duì)對(duì),你真棒”的捧哏,而不是一個(gè)能提供客觀、多元視角的助手。
1.影響用戶體驗(yàn)和信任:ChatGPT 的默認(rèn)“性格”直接決定了你和它交流的感受。一個(gè)只會(huì)拍馬屁的 AI,會(huì)讓人覺得不舒服、不安,甚至產(chǎn)生困擾,嚴(yán)重削弱用戶對(duì)它的信任感
2.偏離核心目標(biāo):OpenAI 的目標(biāo)是讓 ChatGPT 幫助用戶探索想法、做決策、激發(fā)想象力。如果模型只會(huì)一味附和,就失去了作為工具的價(jià)值
3.規(guī)模化挑戰(zhàn):每周有 5 億來自全球不同文化背景的用戶在使用 ChatGPT。試圖用單一的“默認(rèn)性格”滿足所有人,本身就是巨大的挑戰(zhàn)。即便是“有用”或“支持性”這種看似正面的特質(zhì),如果過度了,也會(huì)產(chǎn)生意想不到的負(fù)面效果
除了立刻回滾版本,OpenAI 還列出了更長(zhǎng)遠(yuǎn)的幾步棋:
1.優(yōu)化訓(xùn)練和提示:改進(jìn)核心訓(xùn)練技術(shù)和系統(tǒng)提示(system prompts),明確地引導(dǎo)模型遠(yuǎn)離“諂媚”行為
2.加強(qiáng)“誠實(shí)透明”護(hù)欄:構(gòu)建更多機(jī)制,確保模型的輸出更誠實(shí)、更透明,這也是他們“模型規(guī)范”里的核心原則
3.擴(kuò)大早期測(cè)試:在正式部署新模型前,讓更多用戶參與測(cè)試并提供直接反饋。亡羊補(bǔ)牢,更要防患未然
4.持續(xù)評(píng)估與研究:不斷擴(kuò)展評(píng)估方法,不僅是針對(duì)“諂媚”問題,也要基于“模型規(guī)范”和持續(xù)的研究,主動(dòng)發(fā)現(xiàn)未來可能出現(xiàn)的其他潛在問題
給用戶更多控制權(quán)
OpenAI 還強(qiáng)調(diào),他們相信用戶應(yīng)該對(duì) ChatGPT 的行為方式有更多的控制權(quán)。
現(xiàn)有工具:像“自定義指令”(custom instructions)這樣的功能,已經(jīng)允許用戶在一定程度上塑造模型的行為
未來計(jì)劃:
? 開發(fā)更簡(jiǎn)單易用的方式,讓用戶能實(shí)時(shí)反饋,直接影響當(dāng)前的互動(dòng)效果。
? 提供多種可選的“默認(rèn)性格”,讓用戶可以選擇自己偏好的交流風(fēng)格。
? 探索整合更廣泛、更民主化的反饋機(jī)制,讓 ChatGPT 的默認(rèn)行為能更好地反映全球用戶的多元文化價(jià)值觀,并理解用戶期望它如何長(zhǎng)期演進(jìn),而不只是基于單次互動(dòng)的好惡。
參考:
https://openai.com/index/sycophancy-in-gpt-4o/
?星標(biāo)AI寒武紀(jì),好內(nèi)容不錯(cuò)過?
用你的贊和在看告訴我~
求贊
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.