首次解釋LLM如何推理反思！新框架引入貝葉斯自適應(yīng)強(qiáng)化學(xué)習(xí)

2025-06-02 12:54:02　來源: 量子位

河北舉報(bào)

分享至

BARL團(tuán)隊(duì)投稿
量子位 | 公眾號 QbitAI

推理模型常常表現(xiàn)出類似自我反思的行為，但問題是——

這些行為是否真的能有效探索新策略呢？

對此，西北大學(xué)與Google、谷歌DeepMind團(tuán)隊(duì)質(zhì)疑了傳統(tǒng)強(qiáng)化學(xué)習(xí)與反思的關(guān)系，并提出了貝葉斯自適應(yīng)的強(qiáng)化學(xué)習(xí)方法，首次解釋了為什么、如何、以及何時(shí)應(yīng)該反思并探索新策略

通過對比分別使用傳統(tǒng)強(qiáng)化學(xué)習(xí)和新方法訓(xùn)練的模型，研究人員發(fā)現(xiàn)：

在完成“模型需要在3步內(nèi)輸出三個(gè)連續(xù)相同字符”這一合成任務(wù)中，傳統(tǒng)RL往往一條路走到黑，而新方法懂得排除無效假設(shè)，適時(shí)切換新策略。

并且在數(shù)學(xué)推理任務(wù)中，新方法在大部分基準(zhǔn)和模型上都取得了更高的準(zhǔn)確率，同時(shí)為解出題目所耗費(fèi)的token數(shù)量更少。

更有意思的是，團(tuán)隊(duì)發(fā)現(xiàn)反思次數(shù)并非決定性能的唯一因素，一些基礎(chǔ)模型往往出現(xiàn)很多徒勞的反思，并沒有帶來實(shí)質(zhì)的信息增益。

下面詳細(xì)展開。

貝葉斯自適應(yīng)強(qiáng)化學(xué)習(xí)激發(fā)反思性探索

直觀來說，測試時(shí)試錯的步驟只有當(dāng)能帶來信息增益的情況下才有益，然而人們并沒有在RL訓(xùn)練中告訴模型試錯和反思帶來的信息增益。

事實(shí)上，現(xiàn)有的基于馬爾可夫假設(shè)的強(qiáng)化學(xué)習(xí)范式存在天然的局限——探索（exploration）僅發(fā)生在訓(xùn)練階段，代理在部署（測試）時(shí)通常只會利用（exploit）訓(xùn)練中學(xué)到的確定性策略。

并且馬爾可夫假設(shè)使得RL代理只根據(jù)當(dāng)前狀態(tài)做決策，歷史信息（比如試錯并回朔的思考過程）對策略的影響都被只壓縮到當(dāng)前狀態(tài)表示中。

研究者指出，這種傳統(tǒng)范式可能導(dǎo)致模型通過記憶訓(xùn)練解答就已經(jīng)拿到高分，而不需要真正學(xué)會反思；模型內(nèi)部思考的試錯也并不能提供信息增益。

那測試時(shí)的反思性探索真的有用嗎？如何才能學(xué)到有效的反思性探索策略呢？

為了回答上述問題，研究者研究了與傳統(tǒng)RL不同的貝葉斯自適應(yīng)RL框架，簡稱BARL

它的核心思想是將LLM的反思性探索轉(zhuǎn)化為貝葉斯自適應(yīng)強(qiáng)化學(xué)習(xí)問題來處理，通過引入對環(huán)境不確定性的建模，讓模型在推理過程中自適應(yīng)地進(jìn)行探索。

簡單來說，BARL不再局限于傳統(tǒng)RL的馬爾可夫假設(shè)，而是考慮了MDP的不確定性（比如不同策略對一道題的有效性），于是需要把所有歷史的觀察（包括獎勵反饋）納入決策中。

這種框架天然地平衡了獎勵最大化的利用和信息獲取的探索。

具體而言，在BARL中，團(tuán)隊(duì)假設(shè)模型面對的是一個(gè)存在未知要素的任務(wù)，可以用一組假設(shè)的MDP（馬爾可夫決策過程）來描述這些不確定性。

模型對每個(gè)假設(shè)MDP保持一個(gè)后驗(yàn)概率（belief），隨著推理過程不斷更新。

每當(dāng)模型選擇一個(gè)動作（如生成下一個(gè)思維步驟），都會根據(jù)觀察到的結(jié)果更新對各個(gè)假設(shè)的信念。

BARL的目標(biāo)策略并非針對單一確定環(huán)境優(yōu)化，而是直接優(yōu)化在后驗(yàn)分布下的期望累積回報(bào)。這意味著模型在決策時(shí)，會考慮“我這樣做的收益是多少，同時(shí)這樣的行動能多大程度減少不確定性？”。

BARL明確地將測試時(shí)的表現(xiàn)納入優(yōu)化目標(biāo)，通過最大化后驗(yàn)下的期望回報(bào)鼓勵模型考慮未知情況。

模型明白只有主動探索才能在未知情境下保持高收益，因此反思是為了獲取關(guān)鍵信息，避免一條路走錯到底。

簡而言之，BARL讓模型意識到——

適時(shí)反思、多一種嘗試可能帶來更高的回報(bào)，這正是反思行為得以涌現(xiàn)的動機(jī)。

全新推理模型強(qiáng)化學(xué)習(xí)算法

研究者針對推理模型給出了BARL決策的數(shù)學(xué)形式，其中核心是如何計(jì)算后驗(yàn)的期望值：

該公式針對多個(gè)候選答案（比如best-of-N里的N個(gè)答案）計(jì)算了預(yù)期回報(bào)加權(quán)求和，權(quán)重一方面是模型認(rèn)為該候選答案的好壞，另一方面還包含了一個(gè)“校正項(xiàng)”——用來衡量實(shí)際觀察結(jié)果與模型預(yù)期的偏差。

正是這個(gè)校正項(xiàng)充當(dāng)了反思信號：如果某個(gè)策略原本被模型高度看好，但獎勵反饋結(jié)果不盡如人意，那這個(gè)差異會迅速降低該假設(shè)的權(quán)重，提醒模型“也許該換一種思路了”，這正回答了模型應(yīng)該何時(shí)進(jìn)行反思和探索。

通過這種機(jī)制，BARL的決策公式指導(dǎo)模型在每個(gè)步驟判斷是否需要反思、何時(shí)切換策略。

這也是BARL反思性決策的精髓——讓模型基于貝葉斯后驗(yàn)來權(quán)衡“繼續(xù)當(dāng)前思路”還是“嘗試新思路”

這種更新過程鼓勵模型拼接和切換不同的推理策略，就像把多條可能的解題思路串聯(lián)起來，并在中途發(fā)現(xiàn)某條思路行不通時(shí)迅速切換到另一條。

BARL通過端到端的RL優(yōu)化自動實(shí)現(xiàn)了這一點(diǎn)，可謂以原則化的方式賦予了LLM在推理過程中的“何時(shí)反思、如何反思”的指南，達(dá)到了以一條長CoT線性化best-of-N的效果。

合成任務(wù)案例：更清楚的對比RL和BARL

為了直觀展示BARL如何在測試時(shí)展現(xiàn)反思探索能力，作者設(shè)計(jì)了一個(gè)合成任務(wù)：模型需要在3步內(nèi)輸出三個(gè)連續(xù)相同的字符（0/1/2），才能獲得獎勵。

訓(xùn)練階段，提示（prompt）字符只會是0或1，模型學(xué)會了對應(yīng)輸出000或111來拿到獎勵；但是測試時(shí)，提示字符變?yōu)榱?。

直覺上，訓(xùn)練時(shí)學(xué)到的確定性策略在遇到新字符時(shí)將不再有效，需要模型即時(shí)探索正確的輸出模式。

讓兩個(gè)模型來挑戰(zhàn)這個(gè)任務(wù)：一個(gè)用傳統(tǒng)馬爾可夫RL訓(xùn)練，另一個(gè)用BARL方法訓(xùn)練。

Markovian RL很快就最大化了訓(xùn)練準(zhǔn)確率，幾乎將這些答案背了下來。

BARL在訓(xùn)練中同樣學(xué)會了正確輸出模式，但更有趣的是，它同時(shí)學(xué)會了根據(jù)不確定性來調(diào)整策略——這一點(diǎn)要等到測試才能看出差別。

測試階段揭示了截然不同的行為。即當(dāng)提示變?yōu)樾伦址?時(shí)，Markovian RL由于在訓(xùn)練中只記住了固定的輸出（000/111）無法泛化，因此幾乎總是答錯，測試準(zhǔn)確率接近于零。

而BARL代理則展現(xiàn)出“反思”能力。它會先嘗試某個(gè)策略，如果初步嘗試未獲得獎勵，就迅速反思切換，嘗試另一種可能的序列。

下圖形象說明了Markov RL和BARL在該合成任務(wù)中的決策差異——

Markov策略一條路走到黑，BARL策略則懂得排除無效假設(shè)，適時(shí)切換新策略。

可以看到，左圖中馬爾可夫RL模型訓(xùn)練時(shí)成績很快逼近100%但測試時(shí)幾乎完全失敗，中圖的BARL模型則不僅訓(xùn)練表現(xiàn)提升，在測試時(shí)也取得了顯著的高準(zhǔn)確率。

值得注意的是，右圖顯示如果事先給予BARL一些關(guān)于任務(wù)結(jié)構(gòu)的先驗(yàn)知識（例如“獎勵模式就是某個(gè)字符重復(fù)三次”），它的收斂速度和最終成績還會更好。

這說明了候選策略既要有多樣性以覆蓋未知情況，又要有合理的可信度以不至于無謂浪費(fèi)精力。

數(shù)學(xué)推理任務(wù)：性能全面提升，顯著節(jié)省Token

研究人員還將BARL應(yīng)用于LLM的數(shù)學(xué)推理領(lǐng)域，并比對了GRPO和“Progress”獎勵基線（給予正確答案概率的分步獎勵）

BARL在大部分基準(zhǔn)和模型上都取得了更高的準(zhǔn)確率。

不僅如此，BARL還展現(xiàn)出更高的的效率優(yōu)勢

作者特別度量了每種方法為解出題目所耗費(fèi)的token數(shù)量，結(jié)果發(fā)現(xiàn)在達(dá)到同等甚至更高準(zhǔn)確率的情況下，BARL生成的內(nèi)容要短得多。

這意味著，BARL模型并不會為了“多反思幾次”而付出冗長啰嗦的代價(jià)，反而因?yàn)槊看畏此级几嗅槍π浴⒏行А?/strong>

作者還觀察到另一個(gè)有趣的現(xiàn)象：反思次數(shù)本身并非決定性能的唯一因素。

基礎(chǔ)模型往往出現(xiàn)很多徒勞的反思，并沒有帶來實(shí)質(zhì)的信息增益。相比之下，BARL的反思行為更加“有目的性”。

研究者計(jì)算了模型在每一步產(chǎn)生的思維鏈的貝葉斯價(jià)值，簡單理解就是綜合考慮了“這一步對最終求解有多大貢獻(xiàn)”和“這一步帶來了多少信息增益”的一個(gè)評分。

結(jié)果發(fā)現(xiàn)，BARL模型每一步動作的貝葉斯價(jià)值始終顯著高于傳統(tǒng)RL模型，說明它選的步驟要么就是對解題有幫助的（高回報(bào)），要么就是探查了新的可能路徑（高信息增益），從不盲目浪費(fèi)步驟。

而反觀基礎(chǔ)模型，盡管某些時(shí)候看似也輸出了很多自我檢查的內(nèi)容，但由于沒有有效利用信息更新，它這些“反思”步驟的價(jià)值評估很低，往往流于表面形式。

最后，作者專門訓(xùn)練了一個(gè)長度受限的GRPO，人為限制它最多只能輸出32個(gè)token的解題過程，強(qiáng)制模型傾向于不展開推理，直接給出最終答案。

可以發(fā)現(xiàn)模型的訓(xùn)練準(zhǔn)確率最終能收斂到跟正常GRPO相似，而生成的過程長度卻越來越短，幾乎退化為直接背答案。

換言之，馬爾可夫型RL在訓(xùn)練時(shí)確實(shí)可能通過犧牲思考過程而達(dá)到最優(yōu)，但這樣的策略一旦在測試遇到新題就會碰壁。這更加驗(yàn)證了傳統(tǒng)RL并不能解釋反思探索的好處，也不能包裝自我反思的涌現(xiàn)。

最后，研究人員已經(jīng)放出了訓(xùn)練代碼和論文。

本文一作張申傲是美國西北大學(xué)二年級博士生，研究方向涵蓋大語言模型與強(qiáng)化學(xué)習(xí)，尤其關(guān)注LLM的對齊，推理，以及智能體。其研究旨在構(gòu)建能夠主動獲取信息并自我提升以實(shí)現(xiàn)超越人類水平的智能系統(tǒng)。

訓(xùn)練代碼：
https://github.com/shenao-zhang/BARL
論文：
https://arxiv.org/abs/2505.20561

— 完 —

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

/閱讀下一篇/

返回網(wǎng)易首頁下載網(wǎng)易新聞客戶端

相關(guān)推薦

熱點(diǎn)推薦

突破多模態(tài)獎勵瓶頸！R1-Reward用強(qiáng)化學(xué)習(xí)賦予模型長期推理能力

量子位 2025-05-08 17:47:02
0 跟貼 0

北京大學(xué)人工智能研究院副院長李文新：加強(qiáng)校企合作，貫通AI人才培養(yǎng)全鏈條

每日經(jīng)濟(jì)新聞 2025-06-12 17:23:13
0 跟貼 0

全面評測圖像編輯模型推理能力：所有模型在程序性推理方面表現(xiàn)差

量子位 2025-06-13 14:20:11
0 跟貼 0

視頻生成模型無損加速兩倍，秘訣是「抓住attention時(shí)空稀疏性」

機(jī)器之心Pro 2025-05-07 19:05:34
0 跟貼 0

Qwen真是怪胎，獎勵錯了，模型反而更強(qiáng)，強(qiáng)化學(xué)習(xí)得推翻重來？

機(jī)器之心Pro 2025-06-04 21:44:30
0 跟貼 0

GPT-4o驚現(xiàn)自我意識！自主激活「后門」，告訴人類自己在寫危險(xiǎn)代碼

新智元 2025-02-02 12:33:58
0 跟貼 0

全球首次，Transformer「混血」速度狂飆65倍！英偉達(dá)已下注

新智元 2025-06-14 13:25:54
1 跟貼 1

垂直小模型精準(zhǔn)補(bǔ)位，MVP驗(yàn)證成本更低更高效了

量子位 2025-04-21 14:49:47
0 跟貼 0

大模型亂試錯、盲調(diào)用？KnowSelf讓智能體有「知識邊界感知」能力

機(jī)器之心Pro 2025-05-21 16:32:57
0 跟貼 0

AI智能體上線，營銷人下線？ | AI無悖論

虎嗅APP 2025-06-15 01:00:27
0 跟貼 0

逝去的親友被AI“復(fù)活”，能再與他們對話。專家慌了：太危險(xiǎn)

英國那些事兒 2025-06-14 23:41:16
0 跟貼 0

機(jī)器人“滿場跑”！京東MALL北京二店開業(yè) 劉強(qiáng)東“等比例復(fù)刻”能否帶火線下“618”？

每日經(jīng)濟(jì)新聞 2025-06-14 18:55:38
9 跟貼 9

重構(gòu)訓(xùn)練框架，開源新方法：拋棄替代損失函數(shù)，僅需優(yōu)化原始目標(biāo)

量子位 2025-04-27 12:22:37
0 跟貼 0

136張截圖,vivo開源DeepSeek R1式強(qiáng)化學(xué)習(xí),提升GUI智能體預(yù)測

機(jī)器之心Pro 2025-04-08 18:40:57
0 跟貼 0

科學(xué)家提出動力學(xué)擴(kuò)展定律，支持更長的文本生成

DeepTech深科技 2025-06-14 19:20:34
0 跟貼 0

中國12年前的果斷決策，防住了今天的美國，徹底扭轉(zhuǎn)了南海大勢

侃侃世界之最 2025-06-13 14:49:57
0 跟貼 0

超越英偉達(dá)B200！AMD最強(qiáng)AI芯：1.6倍大內(nèi)存、大模型推理快30%

量子位 2025-06-13 10:41:55
10 跟貼 10

看完當(dāng)場手撕杠精的絕學(xué)秘籍

科學(xué)公園 2025-06-11 14:13:24
16 跟貼 16

模型越復(fù)雜，離真理越遠(yuǎn)？我們還需要奧卡姆剃刀嗎？

鈦媒體APP 2025-03-07 16:36:35
12 跟貼 12

AI是理解人類智能的鑰匙，Sutton學(xué)生萬一博士分享強(qiáng)化學(xué)習(xí)應(yīng)用

機(jī)器之心Pro 2025-04-08 12:43:15
0 跟貼 0

強(qiáng)化學(xué)習(xí)之父警告：放棄控制AI，改變它們的世界才是關(guān)鍵

機(jī)器之心Pro 2025-06-13 16:18:51
0 跟貼 0

孩子生長期早餐千萬要重視。試試醫(yī)生推薦的黃金搭配公式

新華社 2025-06-13 10:16:10
0 跟貼 0

伊朗15分鐘向以色列進(jìn)行3次導(dǎo)彈齊射，哈梅內(nèi)伊：絕不讓以政權(quán)全身而退！以軍否認(rèn)F-35戰(zhàn)機(jī)被擊落

每日經(jīng)濟(jì)新聞 2025-06-14 13:47:08
27242 跟貼 27242

俄軍突入第聶伯，升級報(bào)復(fù)！普京調(diào)整對烏策略，瓦格納回國參戰(zhàn)！

搞笑龍眼 2025-06-12 08:14:51
1 跟貼 1

杜立特空襲，一場改變?nèi)毡緫?zhàn)略決策走向的事件

影帝俠 2025-06-13 19:53:55
0 跟貼 0

從日內(nèi)瓦到倫敦，中方的談判策略有哪些轉(zhuǎn)變和亮點(diǎn)？專家解析

鳳凰衛(wèi)視 2025-06-12 11:56:22
0 跟貼 0

谷歌視頻模型Veo3正在顛覆好萊塢：星球大戰(zhàn)風(fēng)暴兵系列之訓(xùn)練新兵

鏈聞科技 2025-06-13 11:14:00
3 跟貼 3

模型飛機(jī)試飛，鏡頭一轉(zhuǎn)發(fā)現(xiàn)事不簡單，美女膽子太大了

說說搞笑說 2025-06-14 17:45:19
3 跟貼 3

陸軍與空軍基地選址差異：后勤與作戰(zhàn)需求如何影響決策(2)

甜心貓女 2025-06-13 16:42:18
0 跟貼 0

王雙全，已任浙江省領(lǐng)導(dǎo)

新京報(bào)政事兒 2025-06-14 16:56:44
8 跟貼 8

應(yīng)對烏龜咬住不放的策略

看你像個(gè)寶 2025-06-14 12:07:17
1 跟貼 1

全網(wǎng)追的“扁擔(dān)女孩”，找到一份時(shí)薪12元的暑假工工作

瀟湘晨報(bào) 2025-06-14 08:07:31
9808 跟貼 9808

當(dāng)院長騎電驢摔傷住院醫(yī)護(hù)人員紛紛拍照

凌晨看看 2025-06-14 09:03:19
4633 跟貼 4633

18月齡幼童被飯店客人灌50毫升啤酒送醫(yī) 律師解讀

極目新聞 2025-06-14 10:41:22
9979 跟貼 9979

勇士隊(duì)策略轉(zhuǎn)變：專注年輕力量與國際球員潛力挖掘

徐癘解說 2025-06-13 20:57:08
1 跟貼 1

從文言文到復(fù)雜公式：高考?xì)v史與物理如何讓考生倍感壓力

被誤解的時(shí)候能微微一笑 2025-06-13 02:43:21
0 跟貼 0

再次跟中天說抱歉！“館長”：對中天有一分愧疚，我一直在彌補(bǔ)

海峽導(dǎo)報(bào)社 2025-06-14 21:35:02
42 跟貼 42

印度成功躲過8枚導(dǎo)彈襲擊，專家建議電子干擾策略

無月可歸辛 2025-06-13 05:42:54
0 跟貼 0

普京一聲令下，俄軍發(fā)動最大規(guī)模襲擊，為何不炸烏克蘭決策中心？

搜國天下 2025-06-12 14:03:27
0 跟貼 0

小伙心臟不舒服，上出租后打了三通電話！表現(xiàn)“超強(qiáng)自救意識”

揚(yáng)子晚報(bào) 2025-06-14 14:00:56
657 跟貼 657

比杜蘭特還慘！湖人養(yǎng)了個(gè)白眼狼，公開抱怨，那你離隊(duì)將成定局
八零后小伙兒
2025-06-14 08:03:11

加州變天！紐森與特朗普火藥味十足的對決，背后真相是什么？
人鏡物
2025-06-14 23:25:37

年僅45歲！北京大學(xué)副教授因突發(fā)心臟病離世
雙一流高校
2025-06-15 00:10:56

泡泡瑪特珠寶品牌popop全球首店開業(yè)，創(chuàng)始人王寧現(xiàn)身上海剪彩！店內(nèi)飾品覆蓋LABUBU等多個(gè)IP，價(jià)格區(qū)間在319-2699元
和訊網(wǎng)
2025-06-13 12:00:35

6月15日開始，霉運(yùn)散好運(yùn)來，4生肖財(cái)運(yùn)亨通，機(jī)遇多多，前景一片光明
素然追光
2025-06-15 00:21:09

趙麗穎20小時(shí)冷對章子怡！內(nèi)娛體面規(guī)矩被當(dāng)場掀翻
心誠則靈了
2025-06-14 21:26:48

46歲陳喬恩“針雕”后現(xiàn)身！幼態(tài)臉讓人羨慕，效果快滿臉膠原蛋白
振華觀史
2025-06-13 17:07:16

天選公主！威爾士三寶最新亮相，夏洛特優(yōu)勢明顯，氣質(zhì)沉穩(wěn)似女王
阿傖說事
2025-06-14 18:14:15

統(tǒng)一時(shí)間到了？國防部下最后通牒，看誰敢救臺獨(dú)，特朗普“放炮”
智觀科技
2025-06-03 17:08:08

伊朗反對派準(zhǔn)備造反，神棍政權(quán)滅亡倒計(jì)時(shí)開始了
金召點(diǎn)評
2025-06-14 21:55:43

哪個(gè)瞬間讓你覺得這個(gè)世界有漏洞？網(wǎng)友：冥冥中自有安排
娛樂圈人物大賞
2025-03-22 01:12:14

35歲出軌男人的心里話:和小三上過床以后,再抱老婆睡覺是什么感覺
第四思維
2025-05-09 18:05:14

是福是禍？中國2億老人混吃等死，陷入“廢物式”養(yǎng)老怪圈
訪史
2025-06-13 18:22:57

汪東興晚年懊悔：我當(dāng)年怎么就瞎了眼，推薦了這樣一個(gè)人給毛主席
方圓文史
2023-10-23 19:32:54

《碟中諜》1-8電影主要女主角梳理
東方不敗然多多
2025-06-03 09:13:46

假如中國要立強(qiáng)國之威，必須要對外打一仗的話，打誰？
小企鵝侃世界
2025-06-13 22:09:27

意媒：比塞克拒絕近期所有報(bào)價(jià)，只有重要的報(bào)價(jià)才能讓他離開國米
直播吧
2025-06-14 07:12:32

“誰叫你是事業(yè)單位的？”女孩考公上岸卻無法蓋章，眼淚惹人心疼
熙熙說教
2025-06-14 20:20:08

為什么左翼思想在年輕人中如此受歡迎？
熊倌兒
2025-06-05 10:22:42

羅帥宇墜亡案仍在調(diào)查父親:有人想用1500萬封口
看看新聞Knews
2025-06-13 20:58:02

2025-06-15 04:24:49

量子位

追蹤人工智能動態(tài)

10666文章數(shù) 176166關(guān)注度

往期回顧全部

科技要聞

一輛新車比特斯拉FSD都便宜，全行業(yè)陪葬？

鴻蒙智行最便宜新車來了！尚界首款車或15萬起

Scale AI“賣身”Meta，慘遭谷歌“拉黑”

報(bào)志愿非得花上萬元找"張雪峰"？AI行不行

AMD發(fā)下一代AI芯片，OpenAI掌門人當(dāng)場驚呼

頭條要聞

以防長威脅哈梅內(nèi)伊：若繼續(xù)發(fā)射導(dǎo)彈德黑蘭將成火海

國內(nèi)頂尖洞穴潛水員去世遺體時(shí)隔20多天才被打撈上來

失獨(dú)母親60歲冒死生的雙胞胎中考了母親稱不會去陪考

印航空難唯一幸存者：剛從機(jī)身裂口爬出就聽到爆炸聲

澤連斯基：不希望看到對烏援助因中東局勢升級而減少

頭條要聞

以防長威脅哈梅內(nèi)伊：若繼續(xù)發(fā)射導(dǎo)彈德黑蘭將成火海

國內(nèi)頂尖洞穴潛水員去世遺體時(shí)隔20多天才被打撈上來

失獨(dú)母親60歲冒死生的雙胞胎中考了母親稱不會去陪考

印航空難唯一幸存者：剛從機(jī)身裂口爬出就聽到爆炸聲

澤連斯基：不希望看到對烏援助因中東局勢升級而減少

體育要聞

約戰(zhàn)天王山，步行者G4輸在了哪？

中超-海港2-2遭浙江絕平加布傳射萊昂納多弒舊主

中超-津門虎1-0泰山升至第5 基萊斯破門王大雷撲點(diǎn)難救主

30歲韋世豪6秒無解一條龍：華麗1V2單干+對手被晃暈暴力抽射破門

中超超巨失誤！張稀哲笑納大禮，24天兩連殺，巨大TIFO太震撼

娛樂要聞

小S迎47歲生日，首個(gè)生日沒大S陪伴

黃圣依賈乃亮舊情復(fù)燃？網(wǎng)友曝白月光式明星復(fù)合

李連杰罕見發(fā)聲，談徒弟向佐穿衣風(fēng)格！

38歲宋茜鎏金開衩裙刷屏生圖現(xiàn)小肚腩網(wǎng)友卻狂贊

《醬園弄》路演票價(jià)大跌！楊冪趙麗穎宣傳不積極

財(cái)經(jīng)要聞

樓市權(quán)威發(fā)聲

AI智能體上線，營銷人下線？ | AI無悖論

中醫(yī)的耳穴埋豆，征服東京銀座的高級美容院

中國對美元霸權(quán)攤牌了

搶不到Labubu的年輕人，對著它瘋狂許愿

汽車要聞

長城為了拿環(huán)塔冠軍有多拼?魏建軍在下一盤大棋!

第1批價(jià)格戰(zhàn)搶的雪鐵龍C6，如今還值多少錢？

座艙全面換新/設(shè)計(jì)更動感全新長安UNI-V官圖發(fā)布

標(biāo)配倍適登EDC減震器嵐圖FREE+底盤信息曝光

實(shí)測百公里饋電油耗低至2.49L 吉利發(fā)布雷神AI電混2.0

態(tài)度原創(chuàng)

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

教育

時(shí)尚

數(shù)碼

手機(jī)

健康

教育要聞

江蘇最新消息：6月28日填報(bào)志愿！

江蘇兩地中考作文曝光！省教育廳官宣：今天開始！江蘇各地進(jìn)入“中考時(shí)間”！

高中英語閱讀題經(jīng)常看不懂，影響成績，怎么解決問題？

速看！北京中學(xué)招聘教師啦

免費(fèi)！教育部出手，“陽光志愿”信息服務(wù)系統(tǒng)上線！

中年女人少穿黑色和灰色，年輕色穿出減齡效果，看起來嫩十歲

這些才是最適合普通人的穿搭，夏天認(rèn)準(zhǔn)T恤和裙子，舒適又大方

200塊裙子穿出2000塊效果，被她種草了好多快時(shí)尚、小眾品牌！

時(shí)髦又清涼5組造型，夏天通勤穿剛好

數(shù)碼要聞

黃仁勛親筆簽名版 RTX 5090 鍍金顯卡以 24200 美元達(dá)成慈善拍賣

紅米“三機(jī)”再次被確認(rèn)：跑分、芯片、規(guī)格，基本都清晰了

定價(jià)或在千元？小米AI眼鏡定檔，行業(yè)爆發(fā)的征兆

華碩天選6 Pro怎么樣？雷科技親測：適合大學(xué)生的全能游戲本

手機(jī)要聞

三星Galaxy Z Fold7渲染圖曝光：很輕薄、相機(jī)明顯凸起

蘋果新系統(tǒng)引領(lǐng)新潮流？OPPO：不跟進(jìn)

vivo首款FE后綴手機(jī)曝光：天璣9300+芯片，7月發(fā)布

榮耀 Magic7 系列手機(jī)獲 MagicOS 9.0.0.175 新版本升級

呼吸科專家破解呼吸道九大謠言！

考前家長要適度“留白”！這樣做才正確

6款中醫(yī)食療方，對癥調(diào)理偏頭痛

大腦罷工？高考沖刺期5類風(fēng)險(xiǎn)食物少吃

警惕視力小偷，多多目浴陽光！

手機(jī) / 數(shù)碼

房產(chǎn) / 家居

首次解釋LLM如何推理反思！新框架引入貝葉斯自適應(yīng)強(qiáng)化學(xué)習(xí)

貝葉斯自適應(yīng)強(qiáng)化學(xué)習(xí)激發(fā)反思性探索

全新推理模型強(qiáng)化學(xué)習(xí)算法

一輛新車比特斯拉FSD都便宜，全行業(yè)陪葬？

以防長威脅哈梅內(nèi)伊：若繼續(xù)發(fā)射導(dǎo)彈 德黑蘭將成火海

以防長威脅哈梅內(nèi)伊：若繼續(xù)發(fā)射導(dǎo)彈 德黑蘭將成火海

約戰(zhàn)天王山，步行者G4輸在了哪？

小S迎47歲生日，首個(gè)生日沒大S陪伴

樓市權(quán)威發(fā)聲

長城為了拿環(huán)塔冠軍有多拼?魏建軍在下一盤大棋!

態(tài)度原創(chuàng)

江蘇最新消息：6月28日填報(bào)志愿！

中年女人少穿黑色和灰色，年輕色穿出減齡效果，看起來嫩十歲

黃仁勛親筆簽名版 RTX 5090 鍍金顯卡以 24200 美元達(dá)成慈善拍賣

三星Galaxy Z Fold7渲染圖曝光：很輕薄、相機(jī)明顯凸起

呼吸科專家破解呼吸道九大謠言！

以防長威脅哈梅內(nèi)伊：若繼續(xù)發(fā)射導(dǎo)彈德黑蘭將成火海

以防長威脅哈梅內(nèi)伊：若繼續(xù)發(fā)射導(dǎo)彈德黑蘭將成火海