大香大香伊人在钱线久久,亚洲日韩欧美国产高清αv,日本强伦姧人妻久久影片,亚洲国产成人欧美在线观看

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

奧特曼ChatGPT用法錯了!最新研究:要求“直接回答”降低準確率

0
分享至

  • 克雷西 發(fā)自 凹非寺
    量子位 | 公眾號 QbitAI

奧特曼使用大模型的方法,竟然是錯的?

來自沃頓商學院等機構(gòu)的最新研究發(fā)現(xiàn),備受奧特曼喜愛的“直接回答”提示,竟然會顯著降低模型準確率。



不過另一方面,這項研究也發(fā)現(xiàn),在提示詞中加入思維鏈(CoT)命令同樣不好用——

CoT提示對于推理模型非但沒有效果提升,反而會增加時間和計算成本。

而一些前沿的非推理模型,CoT提示可以帶來效果提升,但答案的不穩(wěn)定性也隨之增加了。



研究團隊使用GPQA Diamond數(shù)據(jù)集,針對現(xiàn)在主流的推理和非推理模型,分別在啟用和不啟用CoT的情況下進行了測試。

結(jié)果就是對于推理模型,CoT的作用十分有限,比如對于o3-mini,CoT帶來的準確率提升只有4.1%,但時間卻增加了80%。

非推理模型的結(jié)果則要復雜一些,但總之要不要用CoT,也需要對收益和投入進行仔細權(quán)衡。

所以CoT到底該不該用呢?

實際上,這項研究針對的是用戶提示詞中的CoT命令,并不包括系統(tǒng)提示詞設(shè)定,更不是CoT本身。

CoT提示詞作用有限,甚至還有反效果

這項研究使用GPQA Diamond數(shù)據(jù)集作為基準測試工具,該數(shù)據(jù)集包含了研究生水平的專家推理問題。

實驗過程中,研究團隊測試了這些模型:

  • 推理模型:o4-mini、o3-mini、Gemini 2.5 Flash
  • 非推理模型:Claude 3.5 Sonnet 3.5 、Gemini 2.0 Flash 、GPT-4o-mini、GPT-4o 、Gemini Pro 1.5

對于每個模型,研究團隊都設(shè)置了三種實驗環(huán)境:

  • 強制推理:指示模型在提供答案前逐步思考(Think step by step);
  • 直接回答:明確指示模型不要進行任何解釋或思考,只提供答案;
  • 默認:不提供任何特定的后綴指令,讓模型自行選擇如何回答問題。

為了確保結(jié)果的可靠性,每個問題在每種條件下都被測試了25次,也就是說每個模型針對同一個問題都要做出75次回答。

對于每種實驗設(shè)定,研究團隊一共統(tǒng)計了四個指標:

  • 100%正確率:同一個問題的25次試驗中全部答對才算一次“成功”,“成功”次數(shù)除以題目數(shù)量即為100%正確率;
  • 90%正確率:25次試驗中至少要答對23次,接近人類可接受的錯誤率;
  • 51%正確率:采用簡單多數(shù)原則,25次試驗中答對至少13次就被認為是成功的;
  • 平均評分:將正確答案直接計數(shù),然后除以總試驗次數(shù),也就是總的正確率。

結(jié)果,對于非推理模型,CoT提升相比于直接回答,所有模型的平均評分和“51%正確”指標都有所提升。

其中Gemini Flash 2.0的提升最為顯著,Claude 3.5 Sonnet緊隨其后,GPT-4o和4o-mini則提升不明顯。

但是在100%和90%正確率指標當中,相比于不推理,加入CoT提示后Gemini家族兩款模型和4o-mini的指標反而下降。

這意味著,CoT雖然從整體上提高了模型的準確率,但同時也增加了答案的不穩(wěn)定性。



如果比較強制CoT和默認模式,可以看到CoT帶來的效果明顯比相對于直接回答更弱,造成這種結(jié)果的原因可能和部分模型已經(jīng)內(nèi)置了思維鏈相關(guān)。



而對于推理模型來說,CoT提示的效果就更有限了——

對于o3-mini和o4-mini,使用CoT提示相比要求模型直接回答提升非常少,對于Gemini 2.5 Flash更是所有指標全面下降。

例如在平均評分上,o3-mini僅提升2.9個百分點,o4-mini提升3.1個百分點。



但相比之下,消耗的時間卻是大幅增長,o4-mini大概漲了20%,o3-mini的漲幅更是超過了80%。



而效果好一些的非推理模型,時間的增加也更加明顯。



結(jié)合開頭作者打臉奧特曼的推文,可以看到模型依然是在“會思考”的時候表現(xiàn)最好,但是最前沿的模型當中,推理模型本就已經(jīng)內(nèi)置推理過程,一些非推理模型內(nèi)置提示也包含了CoT相關(guān)內(nèi)容,這種“思考”不再需要通過額外增加提示來實現(xiàn)。

所以,對于直接使用模型應用的用戶來說,默認設(shè)置就已經(jīng)是一種很好的使用方式了。

報告地址:
https://papers.ssrn.com/sol3/papers.cfm?abstract_id=5285532

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
Lisa幫驢老三帶貨!?

Lisa幫驢老三帶貨!?

八卦瘋叔
2025-06-15 09:07:14
羅醫(yī)生,對不起!一年多才知道你,慶幸衛(wèi)健委回應,已有最新進展

羅醫(yī)生,對不起!一年多才知道你,慶幸衛(wèi)健委回應,已有最新進展

老羴學科普
2025-06-13 15:13:55
為什么中國人就是養(yǎng)不成喝牛奶的習慣?美國人幾乎一生都在喝牛奶

為什么中國人就是養(yǎng)不成喝牛奶的習慣?美國人幾乎一生都在喝牛奶

平祥生活日志
2025-06-14 14:15:48
伊朗革命衛(wèi)隊發(fā)布通告:缺席即叛國,軍內(nèi)逃亡潮浮現(xiàn)

伊朗革命衛(wèi)隊發(fā)布通告:缺席即叛國,軍內(nèi)逃亡潮浮現(xiàn)

桂系007
2025-06-14 22:32:58
麥迪:SGA打球像喬科 愛德華茲投很多三分所以有時會掙扎

麥迪:SGA打球像喬科 愛德華茲投很多三分所以有時會掙扎

直播吧
2025-06-15 15:00:10
俄羅斯報復太快太狠!澤連斯基突喊停火,烏克蘭“舉白旗”了

俄羅斯報復太快太狠!澤連斯基突喊停火,烏克蘭“舉白旗”了

上觀韜略
2025-06-15 13:35:04
任正非的講話,讓美國十分驚慌,幾乎一幀一幀分析,令其絕望!

任正非的講話,讓美國十分驚慌,幾乎一幀一幀分析,令其絕望!

Thurman在昆明
2025-06-15 04:25:32
特朗普再次警告伊朗別打擊美國目標

特朗普再次警告伊朗別打擊美國目標

新華社
2025-06-15 14:25:07
河南隊公告:部分成都球迷嚴重違背足球精神,已通報相關(guān)部門

河南隊公告:部分成都球迷嚴重違背足球精神,已通報相關(guān)部門

懂球帝
2025-06-15 13:03:14
湖南一男子曾月入數(shù)萬,因老婆孕期沒把持住,如今淪落深圳街頭

湖南一男子曾月入數(shù)萬,因老婆孕期沒把持住,如今淪落深圳街頭

妮子說美食
2025-06-15 09:15:48
拿到稀土的特朗普。對華關(guān)稅不降了,中方對美國,只提了一個要求

拿到稀土的特朗普。對華關(guān)稅不降了,中方對美國,只提了一個要求

史行途
2025-06-14 15:38:58
美國精心培養(yǎng)的棋子倒了!黃之鋒再被捕,不到2小時美國急發(fā)聲明

美國精心培養(yǎng)的棋子倒了!黃之鋒再被捕,不到2小時美國急發(fā)聲明

蘭妮搞笑分享
2025-06-14 21:38:24
再降薪就沒人踢了!前國腳公開發(fā)聲:國足已經(jīng)降到日韓的三分之一

再降薪就沒人踢了!前國腳公開發(fā)聲:國足已經(jīng)降到日韓的三分之一

山山視角
2025-06-14 15:16:51
畢比談02年西決:我們是比湖人更好的球隊 那本是我們的冠軍

畢比談02年西決:我們是比湖人更好的球隊 那本是我們的冠軍

直播吧
2025-06-15 15:00:10
低估了“蒸荔枝”排寒的威力,吃了幾次,舒服多了!

低估了“蒸荔枝”排寒的威力,吃了幾次,舒服多了!

房產(chǎn)衫哥
2025-06-12 05:35:18
臺獨急先鋒賴清德突然改口:兩岸可以統(tǒng)一,國臺辦一句話讓其啞火

臺獨急先鋒賴清德突然改口:兩岸可以統(tǒng)一,國臺辦一句話讓其啞火

藍色海邊
2025-06-14 21:53:27
哪吒2,都以為159億定局,沒想到北美重映,4次延期繼續(xù)沖擊全球

哪吒2,都以為159億定局,沒想到北美重映,4次延期繼續(xù)沖擊全球

陳意小可愛
2025-06-15 00:07:29
金昀被曝去世后,一件可怕的事情發(fā)生了,丈夫老汪辟謠“假閨蜜”

金昀被曝去世后,一件可怕的事情發(fā)生了,丈夫老汪辟謠“假閨蜜”

大歪歪
2025-06-15 14:28:02
“數(shù)學150分變135分!”清華附中女孩黑臉走出考場,卻被罵上熱搜

“數(shù)學150分變135分!”清華附中女孩黑臉走出考場,卻被罵上熱搜

妍妍教育日記
2025-06-12 17:41:11
2025年6月15日,全國各大銀行存款利率一覽表

2025年6月15日,全國各大銀行存款利率一覽表

娜娜故事屋
2025-06-15 11:30:38
2025-06-15 15:15:00
量子位 incentive-icons
量子位
追蹤人工智能動態(tài)
10670文章數(shù) 176168關(guān)注度
往期回顧 全部

科技要聞

華為Pura80系列首銷:不再嚴重缺貨

頭條要聞

以色列空襲胡塞武裝高層秘密會議 現(xiàn)場大約有10具尸體

頭條要聞

以色列空襲胡塞武裝高層秘密會議 現(xiàn)場大約有10具尸體

體育要聞

裁判可以噴,但也從步行者自身找找問題?

娛樂要聞

鳳凰傳奇曾毅塌房?網(wǎng)友:別連累玲花

財經(jīng)要聞

以伊沖突持續(xù)升級,對全球市場影響多大

汽車要聞

長城為了拿環(huán)塔冠軍有多拼?魏建軍在下一盤大棋!

態(tài)度原創(chuàng)

本地
藝術(shù)
親子
健康
公開課

本地新聞

最近的打工人,都在熬夜看這劇逐幀學習職場小技巧

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

親子要聞

我的爸呀,節(jié)日快樂!還得是我爸

呼吸科專家破解呼吸道九大謠言!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 99久久成人国产精品免费| 成人日韩熟女高清视频一区| 久久久久亚洲精品无码网址色欲| 亚洲欧洲av无码专区| 日本特黄特色特爽大片| 九九精品成人免费国产片| 尤物yw193无码点击进入| 国产成人综合久久精品免费| 亚洲国产精品无码久久| 中日av乱码一区二区三区乱码| 国产伦精品一区二区三区免费迷| 国产美女精品视频线播放| 超碰97人人做人人爱综合| 国产精品??码一本A片| 丝袜无码一区二区三区| 国产免费久久精品99久久| 久久久久人妻精品一区三寸蜜桃| 四虎国产精品永久免费网址| 无码熟妇αⅴ人妻又粗又大| 久久国产精品精品国产色婷婷| 毛片大全真人在线| 亚洲三区在线观看内射后入| 成人免费看吃奶视频网站| 狂猛欧美激情性xxxx大豆行情| 欧美最猛黑人xxxx黑人猛交| 亚洲精品久久久久久成人| 内射少妇36p亚洲区| 精品久久久久久久无码| 洗澡被公强奷30分钟视频| 五月丁香六月综合av| 精品国产电影久久九九| 九九久久精品无码专区| 一区一区三区产品乱码亚洲| 亚洲精品无码久久千人斩| 国产精品亚洲专区无码不卡| 亚洲va中文在线播放| 中文字幕久久熟女人妻av免费| 亚洲最大av资源站无码av网址| 亚洲日韩亚洲另类| 免费午夜福利不卡片在线播放| 丰满熟妇乱又伦精品|