大香大香伊人在钱线久久,亚洲日韩欧美国产高清αv,日本强伦姧人妻久久影片,亚洲国产成人欧美在线观看

網易首頁 > 網易號 > 正文 申請入駐

你永遠叫不醒裝睡的大模型!多輪對話全軍覆沒,性能暴跌39%

0
分享至


新智元報道

編輯:LRS

【新智元導讀】20萬次模擬實驗,耗資5000美元,證實大模型在多輪對話中的表現明顯低于單輪對話!一旦模型的第一輪答案出現偏差,不要試圖糾正,而是新開一個對話!

ChatGPT將大模型技術推動到「對話」場景,直接引發了AI技術的爆炸式增長。

用戶可以先提出一個粗糙的、不明確的問題,再根據模型的回答逐步完善指令、補充細節,多輪對話也催生出「跟AI打電話」等有趣的應用設計。

不過,現有的大模型性能評估基準仍然是基于單輪對話機制,輸入的指令也更長,信息更完善,其在真實場景中多輪對話的性能仍然沒有得到很好地評估。

最近,研究人員進行了一場超過20萬次的多輪對話模擬實驗,對比了15個頂級開源和閉源大模型在單輪和多輪對話場景中的性能差異,結果發現,所有模型在多輪對話中的表現都明顯低于單輪對話,平均性能在六種生成任務中下降了39%


論文鏈接:https://arxiv.org/abs/2505.06120

簡單來說,大模型通常在第一次回答問題的時候,就已經定下了基調,過早地嘗試生成最終解決方案,并且在后續回答的時候也會依賴這個結論。

性能下降后,大模型的可靠性也顯著降低,研究人員將這種現象稱之為「對話迷失」,即LLMs在多輪對話中一旦走錯了方向,在后續提示中添加信息也無法糾正,也就沒辦法恢復到正確的問答路徑。


分片模擬多輪對話

研究人員將現有的單輪基準測試任務重新設計為多種類型的多輪模擬對話場景,以評估大型語言模型(LLMs)在多輪、不明確對話中的表現。

指令分片

GSM8K數據集中具體的(fully-specified)指令文本很長,包括背景、條件、問題等等。

研究人員將原始指令采用一個「半自動化流程」進行切分,每個分片包含原始指令中的一個元素,分片1是指令的高級意圖,模擬用戶的第一次輸入,后續的分片則對意圖細節進行澄清。


所有分片合在一起,可以表達出與原始指令相同的信息,分片必須滿足五個要素:信息保留、清晰的原始意圖、順序無關(除第一個分片外,其他分片彼此獨立)、最大化分片(盡可能從原始指令中提取信息)、最小化轉換(保持原始指令的風格,避免簡化)。


模擬分片對話


基于分片指令模擬多輪、不明確對話的過程

對話包括三個角色:

  1. 助手(assistant)是正在被評估的大語言模型

  2. 用戶(user, 由另一個LLM模擬)包含整個分片指令,并負責在對話的每一回合中逐步揭示分片內容

  3. 系統(system)負責對助手的回答進行分類和評估

在第一輪對話中,用戶模擬器向助手展示指令分片1,助手隨后生成文本回答。

系統會將助手的回答歸類為七種可能的回應策略之一:澄清、拒絕、回避、詢問、討論、缺失或嘗試回答。

如果助手給出了一個明確的、完整的解決方案,就調用「答案提取組件」來確定助手回答中對應答案的部分(例如代碼片段或數字),主要是因為大模型通常會在答案中添加額外信息,比如自然語言解釋或后續問題,可能會干擾評估結果。

在后續每一輪對話中,用戶模擬器最多輸入一個分片信息,然后助手的回復類型為「嘗試回答」,則進行評估。

如果任務評估器認為助手的答案嘗試是正確的,或是分片數據耗盡,則多輪對話模擬結束。

研究人員使用一個低成本的大模型(GPT-4o-mini)來實現用戶模擬器,能夠訪問整個分片指令以及到目前為止的對話狀態,并負責對分片數據進行重新措辭,以自然地融入對話中。


除了用戶消息外,助手在第一輪對話之前還會收到一個最小化的系統指令,提供完成任務所需的上下文,包括數據庫架構或可用API工具列表等。

助手并不知道自己正處于多輪、不明確的對話中,也沒有偏好特定的對話策略。

雖然額外的指令可能會改變模型的行為,但研究人員認為這種變化并不現實,因為在實際場景中,用戶也不可能會考慮輸入這些信息。

策略分類器和答案提取器組件也使用基于提示的GPT-4o-mini實現。

雖然在模擬器中使用基于LLM的組件可以讓對話更加動態,從而提供更真實的模擬,但不可避免地會導致模擬錯誤,可能會影響實驗的有效性。

模擬類型


完全指定(fully-specified, Full),模擬單輪對話場景,即原始指令在第一輪就完整地提供給LLM,用于評估模型的基礎性能。

分片(sharded),模擬多輪、不明確的對話。

合并(concat)模擬基于分片指令的單輪、完全指定的對話。

所有分片被合并成一個單輪指令,以bullet-point形式呈現(每行一個分片),并在前面加上一條指令,要求LLM綜合所有信息來完成任務。

concat模擬是完全指定和分片之間的邏輯中間點,消除了不明確性,但保留了在分片過程中出現的指令重新措辭。

如果一個模型在full和concat模擬中都能成功完成任務,卻無法再分片模擬中完成,就可以認為模型表現不佳的原因,不是因為分片過程中的信息丟失問題,而是源于對話的不明確性和多輪性質。

總結(recap)模擬分片對話,并在最后增加了一個總結輪次,將所有分片指令在一輪中重新陳述,給LLM最后一次回答的機會,可以評估「智能體」式干預能否緩解分片對話中性能下降的問題。

滾雪球(snowball)要求模型對每輪對話都進行總結。

在每一輪中,用戶模擬器不僅引入一個新的分片,還會重新陳述到目前為止對話中已經輸入的所有分片,從而產生「滾雪球」效應,即每輪對話都包含之前所有輪次的信息,再加上一個新的分片,可以評估每輪對話中的「提醒」是否有助于緩解LLM在多輪對話中的失憶問題。

實驗結果

研究人員使用了600條指令,針對三種主要模擬類型(full, concat, shared),從八個模型家族中選擇了總共15種LLMs()進行了實驗,每種模型與每種模擬類型的組合都運行10次模擬,總共進行了超過20萬次模擬對話,總成本約為5000美元。


從總體上看,每個模型在進行「完全指定」和「分片對話」時,在每項任務中的表現都有所下降,平均下降幅度為39%

研究人員將這種現象稱為「對話迷失」,即在完全指定、單輪對話的實驗室環境中表現出色(90%以上)的模型,在更接近現實的場景(對話不明確且為多輪)中,相同任務上表現不佳。

相比之下,在合并cocnat設置中,模型的表現大致相當,其平均表現達到了完全指定表現的95.1%,也就意味著分片對話中表現下降的原因并不是由于分片指令可能導致的信息丟失,否則合并對話的表現也會相應降低。

還可以觀察到,較小的模型(如Llama3.1-8B-Instruct、OLMo-2-13B、Claude 3 Haiku)在合并對話中的表現下降更為明顯(86%-92%),表明較小的模型在泛化能力上不如較大的模型,即使是重新措辭也會對模型性能產生較大影響。

此外,增加測試時的計算量(推理token)并不能幫助模型應對多輪不明確對話。

實驗中的兩個推理模型(o3和Deepseek-R1)性能下降與非推理模型類似,也證實了僅靠增加測試時的計算量并不能讓模型在多輪對話中制定策略。

推理模型傾向于生成更長的回答(平均比非推理LLMs長33%),同時會混淆模型認知,使其分不清用戶提出的要求和自己在上一輪對話中的思考。

參考資料:

https://arxiv.org/abs/2505.06120

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
上海63歲阿姨未婚未育,尋找40年前的空軍戀人,見到他后淚流滿面

上海63歲阿姨未婚未育,尋找40年前的空軍戀人,見到他后淚流滿面

夜闌故事集
2025-06-10 14:10:02
伊朗襲擊重創以色列軍事總部

伊朗襲擊重創以色列軍事總部

西樓飲月
2025-06-14 20:39:40
哈梅內伊民心盡失,伊朗的神權獨裁該結束了

哈梅內伊民心盡失,伊朗的神權獨裁該結束了

智慧生活筆記
2025-06-14 10:25:08
“工業迪士尼”,成了京滬排隊王

“工業迪士尼”,成了京滬排隊王

Vista氫商業
2025-06-13 22:07:41
身處異國他鄉的陪讀媽媽,為解決兒子青春期的困擾,竟決定這么做

身處異國他鄉的陪讀媽媽,為解決兒子青春期的困擾,竟決定這么做

南山青松
2025-06-11 17:01:44
馬英九第四度赴大陸交流,啟程前喊話“促進兩岸民間更密切交流”

馬英九第四度赴大陸交流,啟程前喊話“促進兩岸民間更密切交流”

海峽導報社
2025-06-14 10:19:07
燃油車天要塌了!國產固態電池宣布量產,充電6分鐘跑1000km

燃油車天要塌了!國產固態電池宣布量產,充電6分鐘跑1000km

小李車評李建紅
2025-06-13 06:53:10
浙江一家3人確診癌癥!醫生:早期沒癥狀,發現時已嚴重耽誤

浙江一家3人確診癌癥!醫生:早期沒癥狀,發現時已嚴重耽誤

FM93浙江交通之聲
2025-06-15 06:35:36
網傳某工程有限公司破產倒閉,董事長敗光億萬資產,負債兩千萬

網傳某工程有限公司破產倒閉,董事長敗光億萬資產,負債兩千萬

筆尖下的人生
2025-06-14 18:09:45
關鍵時刻,中俄力挺伊朗,中國代表拿出十年前的協議,硬剛19國

關鍵時刻,中俄力挺伊朗,中國代表拿出十年前的協議,硬剛19國

獵火照狼山
2025-06-13 19:58:22
火力全開!中方不再好言勸:東風17超高音速導彈發射就位

火力全開!中方不再好言勸:東風17超高音速導彈發射就位

一個有靈魂的作者
2025-06-13 12:06:16
瞞不住了,美媒曝光特拉維夫慘狀!伊朗稱:下一次齊射2000枚導彈

瞞不住了,美媒曝光特拉維夫慘狀!伊朗稱:下一次齊射2000枚導彈

今墨緣
2025-06-14 18:35:08
兒子出國后16年沒聯系,我癌癥住院時,主治醫生摘下口罩:媽

兒子出國后16年沒聯系,我癌癥住院時,主治醫生摘下口罩:媽

五元講堂
2025-06-12 15:16:01
李澤楷做夢也想不到!為他生下3個孩子的梁洛施,會跟馬浴柯戀愛

李澤楷做夢也想不到!為他生下3個孩子的梁洛施,會跟馬浴柯戀愛

深析古今
2025-06-14 09:43:29
王雙全,已任浙江省領導

王雙全,已任浙江省領導

新京報政事兒
2025-06-14 16:56:44
不是鄭智,國足新帥或敲定,61歲,意大利名帥,多次進入世界杯

不是鄭智,國足新帥或敲定,61歲,意大利名帥,多次進入世界杯

東球弟
2025-06-15 10:17:26
接到李在明電話后,中方用了30分鐘時間,對韓國提出4大要求

接到李在明電話后,中方用了30分鐘時間,對韓國提出4大要求

老高風云
2025-06-14 10:53:30
重磅!威斯布魯克與掘金分道揚鑣,詹姆斯續約湖人再戰兩年

重磅!威斯布魯克與掘金分道揚鑣,詹姆斯續約湖人再戰兩年

星Xin辰大海
2025-06-14 11:38:41
比汪小菲還慘?王思聰突傳噩耗,他也走上了父親王健林老路

比汪小菲還慘?王思聰突傳噩耗,他也走上了父親王健林老路

小新說娛
2025-06-13 18:17:41
伊朗15分鐘向以色列進行3次導彈齊射,哈梅內伊:絕不讓以政權全身而退!以軍否認F-35戰機被擊落

伊朗15分鐘向以色列進行3次導彈齊射,哈梅內伊:絕不讓以政權全身而退!以軍否認F-35戰機被擊落

每日經濟新聞
2025-06-14 13:47:08
2025-06-15 11:55:00
新智元 incentive-icons
新智元
AI產業主平臺領航智能+時代
12877文章數 66068關注度
往期回顧 全部

科技要聞

華為Pura80系列首銷:不再嚴重缺貨

頭條要聞

清華高顏值美女學霸走紅 本人最新發聲

頭條要聞

清華高顏值美女學霸走紅 本人最新發聲

體育要聞

裁判可以噴,但也從步行者自身找找問題?

娛樂要聞

鳳凰傳奇曾毅塌房?網友:別連累玲花

財經要聞

以伊沖突持續升級,對全球市場影響多大

汽車要聞

長城為了拿環塔冠軍有多拼?魏建軍在下一盤大棋!

態度原創

房產
健康
數碼
手機
時尚

房產要聞

又一城購房補貼!買房就發錢,正在海南樓市瘋狂擴散!

呼吸科專家破解呼吸道九大謠言!

數碼要聞

AMD 銳龍7 9700F曝光:無核顯加持,主流游戲玩家的新希望?

手機要聞

消息稱小米 MIX Flip2、魅族 22 系列等機型 6 月-7 月發布

夏天最值得入手的6件單品,全在這了

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 久久国产精品-国产精品| 亚洲精品国产精品国自产| 精品久久久久久无码专区| 亚洲色无码中文字幕| 国产艳妇av在线观看果冻传媒| 免费观看国产女人高潮视频| 青青青国产成人久久111网站| 成人无码一区二区三区网站| 国产黑色丝袜在线观看下| 一本久道久久综合狠狠躁av| 亚洲精品色情aⅴ色戒| 中文字幕无码视频专区| 免费国产a国产片高清网站| 国精产品一区一区三区有限公司杨| 亚洲av日韩av天堂久久| 亚洲精品欧美精品日韩精品| 自拍日韩亚洲一区在线| 国产太嫩了在线观看| 精品国产肉丝袜久久| 在线人成免费视频69国产| 国产佗精品一区二区三区| 久久老子午夜精品无码怎么打| 国产成人无码av在线播放dvd| 欧美人与性动交g欧美精器| 国产乱妇乱子在线播视频播放网站| 粗大挺进尤物人妻中文字幕| 浴室人妻的情欲hd三级| 日韩av无码免费播放| 国产精品无码一本二本三本色| 亚洲 欧美 中文 日韩aⅴ综合视频| 十八岁以下禁止观看黄下载链接| 水牛影视一区二区三区久| 亚洲国产中文字幕在线视频综合| 久久中文字幕无码一区二区| 九九99久久精品在免费线18| 人妻巨大乳一二三区| 亚洲亚洲精品av在线动态图| 精品人妻无码专区在线无广告视频| 欧美又粗又大又硬又长又爽视频| 麻豆av传媒蜜桃天美传媒| 2014av天堂无码一区|