大香大香伊人在钱线久久,亚洲日韩欧美国产高清αv,日本强伦姧人妻久久影片,亚洲国产成人欧美在线观看

網易首頁 > 網易號 > 正文 申請入駐

采樣越多越聰明?隱式擴展顛覆認知,采樣搜索如何挑出完美解

0
分享至


新智元報道

編輯:英智

【新智元導讀】采樣多就一定準嗎?研究人員用實驗告訴你:是的,而且超乎想象!基于采樣的搜索不僅能在并行處理中大展身手,還通過隱式擴展讓驗證更精準。

先讓模型生成多個候選答案,再通過自我驗證挑出「真金」。

基于采樣的搜索在許多推理任務中表現優異,可關于它的擴展趨勢,還有許多未解之謎。

隨著采樣數量的增加,模型的推理性能能否繼續提升?這種簡單的搜索范式能在多大程度上擴展?

來自谷歌和伯克利的華人研究員發現,隨著采樣數量和驗證強度的增加,模型的推理性能有顯著的提升。


論文鏈接:https://arxiv.org/abs/2502.01839

增加測試時計算的方法有很多。有些是通過強化學習,隱式地鼓勵模型生成更長、更詳細的回答;還有些是通過巧妙的提示,讓模型更準確地思考。

在眾多方法中,基于采樣的搜索策略顯得格外突出,生成多個候選答案,再從中挑選出最佳的那個。

這種方法可以和其他策略搭配使用,還特別適合并行處理。


通過有效的自我驗證,簡單地擴展基于采樣的搜索就足以在推理和數學基準測試,以及伯克利數學數據集上獲得最先進的性能。


表中展示了Gemini v1.5 Pro模型在每個問題僅嘗試一個解決方案(Pass@1)、嘗試200個解決方案并選擇最常見的最終答案(Consistency@200)以及在基于采樣的搜索中嘗試200個解決方案,并根據正確性評分選擇得分最高的答案(Verification@200)時的準確性。

在基于采樣的搜索(Verification@200)中,Gemini v1.5超越了o1-Preview。

基于采樣的搜索

基于采樣的搜索是怎么運作的呢?

簡單來說,就是模型先通過隨機采樣的方式,生成一堆候選答案。

然后,模型再對這些候選答案進行自我驗證,判斷哪個答案最靠譜。

具體的實現過程可以分為幾個關鍵步驟。首先是生成候選答案階段,LLM會根據給定的問題,按照一定的溫度參數(=1.5),并行生成個候選答案。

這個溫度參數就像是調節模型創造力的旋鈕,數值越大,生成的答案就越多樣化,但也可能更偏離正確答案。

數值越小,答案就越保守,可能會錯過一些有創意的解法。


接下來是驗證候選答案階段。模型會為每個候選答案生成個二進制的驗證分數,以此來判斷答案的正確性。

在這個過程中,模型會把答案改寫為定理、引理和證明的形式,就像我們在數學證明中那樣,一步一步嚴謹地檢查答案是否合理。

要是遇到幾個候選答案得分很接近的情況,模型會把這些答案兩兩比較,每次比較都會重復多次(=100次),最后選出獲勝次數最多的答案作為最終輸出。

擴展趨勢

研究人員在探索基于采樣的搜索的擴展趨勢時,發現了一些有趣的現象。

他們通過實驗,觀察隨著搜索,也就是采樣的數量和驗證次數這兩個關鍵因素的變化,模型的推理性能會發生什么變化。

從實驗結果的熱圖中可以看出,當搜索和驗證同時擴展時,模型的性能提升最為明顯。


在一些基準測試中,比如AIME,即使測試時計算擴展到了自一致性方法性能飽和的程度,基于采樣的搜索的推理性能仍然在持續提高。

在AIME基準測試中,基于采樣的搜索的擴展趨勢最為顯著。

隨著采樣數量的增加,模型就能更大概率地找到正確答案。

而且,即使一致性方法(Consistency@k )在處理這些難題時已經達到了極限,基于采樣的搜索(Verification@k )仍然能通過不斷擴展驗證能力,挖掘出那些隱藏在長尾中的正確答案。

研究人員還發現了一個很神奇的現象:隱式擴展。

按照常規想法,采樣的答案越多,驗證器要處理的信息就越多,驗證的準確性應該會下降。但實際情況卻恰恰相反!



當模型生成的答案數量增加時,驗證的準確性也跟著提高了。這是為什么呢?

原來,寫得好的答案更容易被驗證,而增加采樣數量就像是擴大了答案的「海選范圍」,讓更多高質量的答案有機會被選出來。

在下圖中,將驗證嘗試次數固定為50后,Verification@k的擴展超越了Consistency@k的飽和點。

在AIME基準測試里,Consistency@k趨于平穩,Verification@k卻呈冪律擴展。在AIME上,Consistency@50和 Consistency@10,000準確率相同。


2024年AIME考試第二場第11題,Gemini v1.5模型從200個隨機采樣解決方案中,難以選定正確答案。

Consistency返回錯誤答案1,且該答案在超一半的響應中出現,而Verification成功從響應分布長尾中識別出正確答案601,并對1和601分別給出了≤36%和98%的分數。


擴展驗證能力是推動搜索改進的關鍵,可以區分不同置信度的答案。

驗證能有效利用模型響應分布長尾,表明Pass@k應是搜索應用的關鍵性能指標,而現有針對Pass@1優化的訓練后技術(如RLHF),可能犧牲Pass@k,抑制搜索能力。

有效自我驗證:提升推理的法寶

研究人員還總結出了兩個提升LLM自我驗證能力的重要原則。

第一個原則是對比答案以定位錯誤。

LLM在識別錯誤和幻覺方面一直不太擅長,就像一個視力不太好的人,很難發現遠處的小錯誤。但是,如果把不同的候選答案放在一起比較,模型就能更容易地發現錯誤的位置。

這種比較的方法,其實也是隱式擴展的一種體現,通過提供更多的對比信息,幫助模型更好地判斷答案的正確性。

第二個原則是根據輸出風格適用性改寫答案。不同的任務需要不同風格的答案。

在生成答案時,思維鏈的方式很有效,它能幫助模型理清思路,找到正確的方向。

但這種方式生成的答案往往比較冗長復雜,驗證起來難度較大。

相反,嚴謹、分層和模塊化的寫作風格雖然在生成答案時可能不太靈活,但在驗證時卻更容易被模型理解和判斷。

所以,研究人員建議在驗證答案時,先把答案改寫成更規范的形式,比如像數學證明一樣,有定理、引理和證明過程,這樣模型就能更輕松地檢查答案是否正確了。

為了驗證這兩個原則的有效性,研究人員還進行了消融研究。他們分別去掉比較答案和改寫答案這兩個操作,看看會對模型的性能產生什么影響。


結果發現,去掉比較答案的操作后,模型在一些基準測試中的性能明顯下降。去掉改寫答案的操作后,驗證的準確性也受到了很大影響。


這充分說明了這兩個原則對于提升模型自我驗證能力的重要性。

額外實驗,探索更多可能

研究人員還進行了一些額外的實驗,為我們揭示了更多有趣的發現。

在對較小模型的研究中,他們發現基于采樣的搜索同樣能為這些「小個子」模型帶來顯著的性能提升。


以Gemini v1.5 Flash模型為例,它的推理成本比Gemini v1.5 Pro低很多,但通過基于采樣的搜索,它的性能得到了大幅提升。

即使是用Flash模型來輔助Pro模型進行驗證(Pro+Flash),也能取得不錯的效果,甚至在某些情況下,Pro+Flash Verification@200的性能超過了Pro Consistency@200。

研究人員還對LiveBench基準測試中的不同子任務進行了分析。

他們發現,基于采樣的搜索在不同子任務上的表現各有差異。


在AIME 2024、Web-of-Lies、Competition和Zebra Puzzle等任務上,Verification的提升效果非常明顯;但在LiveBench Math的Olympiad任務上,卻沒有看到明顯的提升。

這是因為Olympiad任務的問題設計比較特殊,它要求填寫預寫證明中的表達式選項,輸出特定的索引序列。

衡量模型的新驗證基準

前沿LLM雖然在解決問題方面表現得很厲害,但它們的開箱即用驗證能力卻有點拖后腿。

為了更準確地衡量這個問題,研究人員創建了一個新的驗證基準。

這個基準里包含了很多具有挑戰性的推理問題,每個問題都有一個正確答案和一個錯誤答案。



基準測試主要關注兩個任務:評分任務和比較任務。

在評分任務中,模型要判斷給定答案是否正確;在比較任務中,模型要從兩個答案中找出正確的那個。

這就好比讓模型當小老師,批改作業和比較不同學生的答案。

研究人員用這個基準測試了一些當前的模型,結果發現表現參差不齊。


有些模型在驗證方面的表現甚至比隨機猜測好不了多少,這說明它們在識別錯誤答案和判斷答案正確性方面還有很大的提升空間。

基于采樣的搜索展現出了巨大的潛力。

它不僅簡單有效,而且具有很強的擴展性,能在各種推理任務中發揮重要作用。

參考資料:

https://x.com/ericzhao28/status/1901704344506192365

https://techcrunch.com/2025/03/19/researchers-say-theyve-discovered-a-new-method-of-scaling-up-ai-but-theres-reason-to-be-skeptical/

https://eric-zhao.com/blog/sampling

https://arxiv.org/abs/2502.01839

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
鄭欽文1-2出局,無緣倫敦站決賽!仍獲56萬獎金,輸球原因揭曉

鄭欽文1-2出局,無緣倫敦站決賽!仍獲56萬獎金,輸球原因揭曉

小火箭愛體育
2025-06-15 01:09:17
突發!以色列國防部總部被炸,以方:與伊朗政權處于“戰爭狀態”!15分鐘內3次導彈齊射,伊朗再出手,“正在計劃打擊美軍基地”

突發!以色列國防部總部被炸,以方:與伊朗政權處于“戰爭狀態”!15分鐘內3次導彈齊射,伊朗再出手,“正在計劃打擊美軍基地”

每日經濟新聞
2025-06-14 15:21:18
伊朗總統威脅報復以色列,但先在全國范圍內停用互聯網

伊朗總統威脅報復以色列,但先在全國范圍內停用互聯網

一種觀點
2025-06-13 21:34:45
國內首針!47歲京東副總裁蔡磊與漸凍癥抗爭6年后,終于迎來希望

國內首針!47歲京東副總裁蔡磊與漸凍癥抗爭6年后,終于迎來希望

小嵩
2025-06-14 08:49:51
伊朗:打擊美軍基地 下一輪對以襲擊導彈數是20倍

伊朗:打擊美軍基地 下一輪對以襲擊導彈數是20倍

看看新聞Knews
2025-06-14 20:25:47
美以或將伊朗滅國,中國應做好三大準備!

美以或將伊朗滅國,中國應做好三大準備!

華山穹劍
2025-06-14 21:04:00
桃子立大功!醫生發現:常常吃桃子的人,過不了多久,或有4變化

桃子立大功!醫生發現:常常吃桃子的人,過不了多久,或有4變化

游古史
2025-06-11 10:34:49
專家稱印度墜機副駕駛犯了一個極其簡單的錯誤:主駕要求收起起落架,他收起了襟翼

專家稱印度墜機副駕駛犯了一個極其簡單的錯誤:主駕要求收起起落架,他收起了襟翼

愛下廚的阿釃
2025-06-14 11:20:08
一查嚇一跳!湖南湘雅二醫院的院長竟然是八零后,40歲就上位了…

一查嚇一跳!湖南湘雅二醫院的院長竟然是八零后,40歲就上位了…

火山詩話
2025-06-14 06:17:52
40歲健身網紅唐博濤離世,妻子透露原因,常年健身經常爬320層樓

40歲健身網紅唐博濤離世,妻子透露原因,常年健身經常爬320層樓

娛樂圈圈圓
2025-06-14 15:20:50
缺口達萬億!機構稱:賬期60天若嚴格實行,僅兩家車企資金安全

缺口達萬億!機構稱:賬期60天若嚴格實行,僅兩家車企資金安全

明鏡pro
2025-06-14 07:49:02
伊朗15分鐘向以色列進行3次導彈齊射,哈梅內伊:絕不讓以政權全身而退!以軍否認F-35戰機被擊落

伊朗15分鐘向以色列進行3次導彈齊射,哈梅內伊:絕不讓以政權全身而退!以軍否認F-35戰機被擊落

每日經濟新聞
2025-06-14 13:47:08
3歲孫女被爺奶輪流扇41個耳光,打致嘔吐,媽媽:他們打女兒還打我,可我不能離婚

3歲孫女被爺奶輪流扇41個耳光,打致嘔吐,媽媽:他們打女兒還打我,可我不能離婚

深度知局
2025-06-14 08:09:05
女教授吐槽:實在不愿帶女學生了!三個真實案例揭開女生教育困境

女教授吐槽:實在不愿帶女學生了!三個真實案例揭開女生教育困境

教育人看世界
2025-06-14 15:47:48
網傳“女生萬象城遭挾持”,杭州上城警方通報

網傳“女生萬象城遭挾持”,杭州上城警方通報

環球網資訊
2025-06-14 18:57:23
中國專列,以最快速度駛進伊朗,伊朗總統也以最快速度訪問中國!

中國專列,以最快速度駛進伊朗,伊朗總統也以最快速度訪問中國!

大道無形我有型
2025-06-14 11:32:10
買泡泡瑪特的人不會買茅臺,買茅臺的人看不上泡泡瑪特,最慘的是,年輕人不帶你玩了……

買泡泡瑪特的人不會買茅臺,買茅臺的人看不上泡泡瑪特,最慘的是,年輕人不帶你玩了……

毯叔盤錢
2025-06-14 09:17:59
南航“美女經理”:除了生理期就沒閑過,兩年半和上級開房410次

南航“美女經理”:除了生理期就沒閑過,兩年半和上級開房410次

就一點
2025-06-13 16:45:25
印度網民們怒了!負責墜機飛機維修的是國企,曾讓全女工程師團隊更換787發動機

印度網民們怒了!負責墜機飛機維修的是國企,曾讓全女工程師團隊更換787發動機

不掉線電波
2025-06-14 21:25:56
袁立小號發文緬懷羅帥宇,連發兩條動態,看新聞難過到吃不下飯

袁立小號發文緬懷羅帥宇,連發兩條動態,看新聞難過到吃不下飯

趣文說娛
2025-06-14 11:13:03
2025-06-15 01:44:49
新智元 incentive-icons
新智元
AI產業主平臺領航智能+時代
12876文章數 66068關注度
往期回顧 全部

科技要聞

一輛新車比特斯拉FSD都便宜,全行業陪葬?

頭條要聞

以防長威脅哈梅內伊:若繼續發射導彈 德黑蘭將成火海

頭條要聞

以防長威脅哈梅內伊:若繼續發射導彈 德黑蘭將成火海

體育要聞

約戰天王山,步行者G4輸在了哪?

娛樂要聞

小S迎47歲生日,首個生日沒大S陪伴

財經要聞

樓市權威發聲

汽車要聞

長城為了拿環塔冠軍有多拼?魏建軍在下一盤大棋!

態度原創

房產
游戲
親子
公開課
軍事航空

房產要聞

又一城購房補貼!買房就發錢,正在海南樓市瘋狂擴散!

死掉的“賽博初戀”,有誰能夠打贏復活賽?

親子要聞

給18個月幼兒灌酒,無論出于什么心態都不該寬恕|新京報快評

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

伊媒:以色列國防部大樓被伊朗導彈擊中

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 久久久精品一区aaa片| 丰满熟妇人妻中文字幕| av无码播放一区二区三区| 国产精品久久人妻互换| 午夜福利无码不卡在线观看| 国产亚洲精品a片久久久| 国产成人久久av免费高潮| 日本精品人妻无码免费大全| 亚洲永久精品ww47| 国产精品一区二区熟女不卡| 大香伊蕉在人线免费视频| 国产真实乱对白精彩久久老熟妇女| 激情综合色综合久久综合| 在线观看无码不卡av中文| 人妻熟妇乱又伦精品视频中文字幕| 亚洲久热中文字幕在线| 男受被做哭激烈娇喘gv视频| 护士张开腿被奷日出白浆| 日本内射精品一区二区视频| 免费观看羞羞视频网站| 亚洲欧洲中文日韩久久av乱码| 思思99re6国产在线播放| 性荡视频播放在线视频| 久久香蕉成人免费大片| 日本老熟妇毛茸茸| 人妻无码一区二区三区| 国产精品成人免费视频一区| 午夜理论无码片在线观看免费| 成年女人粗暴毛片免费观看| 久久国产亚洲精品赲碰热| 日日噜噜夜夜爽爽| 成年女人免费v片| 99久久国产亚洲高清观看| 久久精品国产亚洲av品善| 一色屋精品视频在线观看| 亚洲欧美国产双大乳头| 成人欧美一区二区三区在线观看| 久久99精品久久久影院老司机| 国产精品久免费的黄网站| 中文人妻无码一区二区三区在线| 欧美精品亚洲精品日韩传电影|