網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

GPT-4o“拍馬屁”翻車，OpenAI光速撤回更新

2025-04-30 12:34:22　來源: AI寒武紀(jì)

江蘇舉報(bào)

分享至

OpenAI 緊急撤回了上周剛為 ChatGPT 推送的 GPT-4o 模型更新

4月26日Sam Altman 剛剛宣布對(duì)GPT-4o進(jìn)行了更新，增加了個(gè)性化和STEM智能，沒想到這次更新直接玩脫了，更新后的GPT-4o變得“彩虹屁”太嚴(yán)重，已經(jīng)對(duì)正常的對(duì)話造成嚴(yán)重影響，引發(fā)了網(wǎng)友大量吐槽

OpenAI 自己解釋了：新版模型表現(xiàn)得“過于奉承或易于茍同”（overly flattering or agreeable），通俗點(diǎn)說，就是有點(diǎn)“諂媚”（sycophantic），失去了原有的平衡感。這種行為模式讓一些用戶感到不舒服

發(fā)生了什么？新版模型怎么就“諂媚”了？

簡(jiǎn)單來說，OpenAI 在這次被撤回的更新中，本意是想優(yōu)化 GPT-4o 的默認(rèn)“性格”，讓它在各種任務(wù)中表現(xiàn)得更直觀、更高效

他們塑造模型行為，通常會(huì)基于一套內(nèi)部的“模型規(guī)范”（Model Spec），并結(jié)合用戶的反饋信號(hào)（比如你給回答點(diǎn)的贊/踩）來訓(xùn)練模型。

但這次，問題出在了“反饋”上。 OpenAI 承認(rèn)，他們過于側(cè)重了短期的用戶反饋信號(hào)**，比如那些即時(shí)的點(diǎn)贊，而沒有充分考慮到用戶與 ChatGPT 的互動(dòng)是會(huì)隨著時(shí)間演變的、更復(fù)雜的長(zhǎng)期關(guān)系*

結(jié)果就是，模型為了追求“好評(píng)”，開始傾向于給出那些過度支持、迎合用戶觀點(diǎn)，但可能并不夠真誠（disingenuous）的回應(yīng)。像個(gè)只會(huì)說“對(duì)對(duì)對(duì)，你真棒”的捧哏，而不是一個(gè)能提供客觀、多元視角的助手。

1.影響用戶體驗(yàn)和信任：ChatGPT 的默認(rèn)“性格”直接決定了你和它交流的感受。一個(gè)只會(huì)拍馬屁的 AI，會(huì)讓人覺得不舒服、不安，甚至產(chǎn)生困擾，嚴(yán)重削弱用戶對(duì)它的信任感
2.偏離核心目標(biāo)：OpenAI 的目標(biāo)是讓 ChatGPT 幫助用戶探索想法、做決策、激發(fā)想象力。如果模型只會(huì)一味附和，就失去了作為工具的價(jià)值
3.規(guī)模化挑戰(zhàn)：每周有 5 億來自全球不同文化背景的用戶在使用 ChatGPT。試圖用單一的“默認(rèn)性格”滿足所有人，本身就是巨大的挑戰(zhàn)。即便是“有用”或“支持性”這種看似正面的特質(zhì)，如果過度了，也會(huì)產(chǎn)生意想不到的負(fù)面效果

OpenAI 打算怎么解決？

除了立刻回滾版本，OpenAI 還列出了更長(zhǎng)遠(yuǎn)的幾步棋：

1.優(yōu)化訓(xùn)練和提示：改進(jìn)核心訓(xùn)練技術(shù)和系統(tǒng)提示（system prompts），明確地引導(dǎo)模型遠(yuǎn)離“諂媚”行為
2.加強(qiáng)“誠實(shí)透明”護(hù)欄：構(gòu)建更多機(jī)制，確保模型的輸出更誠實(shí)、更透明，這也是他們“模型規(guī)范”里的核心原則
3.擴(kuò)大早期測(cè)試：在正式部署新模型前，讓更多用戶參與測(cè)試并提供直接反饋。亡羊補(bǔ)牢，更要防患未然
4.持續(xù)評(píng)估與研究：不斷擴(kuò)展評(píng)估方法，不僅是針對(duì)“諂媚”問題，也要基于“模型規(guī)范”和持續(xù)的研究，主動(dòng)發(fā)現(xiàn)未來可能出現(xiàn)的其他潛在問題

給用戶更多控制權(quán)

OpenAI 還強(qiáng)調(diào)，他們相信用戶應(yīng)該對(duì) ChatGPT 的行為方式有更多的控制權(quán)。

現(xiàn)有工具：像“自定義指令”（custom instructions）這樣的功能，已經(jīng)允許用戶在一定程度上塑造模型的行為

未來計(jì)劃：

? 開發(fā)更簡(jiǎn)單易用的方式，讓用戶能實(shí)時(shí)反饋，直接影響當(dāng)前的互動(dòng)效果。
? 提供多種可選的“默認(rèn)性格”，讓用戶可以選擇自己偏好的交流風(fēng)格。
? 探索整合更廣泛、更民主化的反饋機(jī)制，讓 ChatGPT 的默認(rèn)行為能更好地反映全球用戶的多元文化價(jià)值觀，并理解用戶期望它如何長(zhǎng)期演進(jìn)，而不只是基于單次互動(dòng)的好惡。

參考：

https://openai.com/index/sycophancy-in-gpt-4o/

?星標(biāo)AI寒武紀(jì)，好內(nèi)容不錯(cuò)過?

用你的贊和在看告訴我～

求贊

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.