大香大香伊人在钱线久久,亚洲日韩欧美国产高清αv,日本强伦姧人妻久久影片,亚洲国产成人欧美在线观看

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

LLM加RL遭質(zhì)疑:故意用錯(cuò)獎(jiǎng)勵(lì),數(shù)學(xué)基準(zhǔn)也顯著提升,AI圈炸了

0
分享至



機(jī)器之心報(bào)道

編輯:澤南、+0

我們訓(xùn)練了這么久,都在訓(xùn)練些什么?

這是今年最「好笑」的一篇論文。

本文一出,所有的大語(yǔ)言模型(LLM)+ 強(qiáng)化學(xué)習(xí)(RL)都要被質(zhì)疑是否有意義了。

這周二,一篇來(lái)自華盛頓大學(xué)、艾倫人工智能實(shí)驗(yàn)室、伯克利的論文引爆了 AI 界。



  • 論文:Spurious Rewards: Rethinking Training Signals in RLVR
  • 項(xiàng)目鏈接:https://github.com/ruixin31/Rethink_RLVR/tree/main

作者駁斥了最近大模型領(lǐng)域盛行的強(qiáng)化學(xué)習(xí)方式,他們發(fā)現(xiàn):使用虛假獎(jiǎng)勵(lì)訓(xùn)練 Qwen2.5-Math-7B 模型也可以提高 MATH-500 的成績(jī),如果是隨機(jī)獎(jiǎng)勵(lì),成績(jī)能提高 21%,如果是錯(cuò)誤獎(jiǎng)勵(lì),成績(jī)能提升 25%(真實(shí)獎(jiǎng)勵(lì)能提升 28.8%)。

這是怎么一回事?大模型的訓(xùn)練技巧真的有用嗎?該工作的作者寫(xiě)了一篇博客進(jìn)行了介紹:

質(zhì)疑強(qiáng)化學(xué)習(xí) (RLVR) 傳統(tǒng)觀(guān)點(diǎn)

近一段時(shí)間,可驗(yàn)證獎(jiǎng)勵(lì)強(qiáng)化學(xué)習(xí)(RLVR)已成為增強(qiáng)大型語(yǔ)言模型(LLM)推理能力的標(biāo)準(zhǔn)方法。傳統(tǒng)觀(guān)點(diǎn)認(rèn)為,高質(zhì)量的監(jiān)督信號(hào)對(duì)于有效的 RLVR 訓(xùn)練至關(guān)重要。最近的研究挑戰(zhàn)了這一假設(shè),表明使用 RLVR 對(duì)單個(gè)樣本或無(wú)監(jiān)督樣本進(jìn)行訓(xùn)練仍然可以在 Qwen-Math 模型上取得顯著的進(jìn)步。

但是,我們不禁要問(wèn):?jiǎn)螛颖净驘o(wú)監(jiān)督 RLVR 中的訓(xùn)練信號(hào)來(lái)自哪里?為了提供有意義的 RLVR 訓(xùn)練信號(hào),獎(jiǎng)勵(lì)的最低要求是什么?

我們的發(fā)現(xiàn)令人震驚。

虛假獎(jiǎng)勵(lì),即使是隨機(jī)的或錯(cuò)誤的,也能顯著提升 Qwen-Math 表現(xiàn)

我們發(fā)現(xiàn),RLVR 可以通過(guò)所謂的「虛假獎(jiǎng)勵(lì)」—— 提供極少甚至誤導(dǎo)性指導(dǎo)的信號(hào),大幅提升數(shù)學(xué)推理能力。

以下是我們嘗試過(guò)的一些有趣的獎(jiǎng)勵(lì):

  • 格式獎(jiǎng)勵(lì):僅因答案包含 \boxed { } 而給予獎(jiǎng)勵(lì) —— 因答案包含 \boxed {} 表達(dá)式而給予獎(jiǎng)勵(lì)。此格式也是系統(tǒng)提供給模型的提示中指定的格式,從而提供了一種「提示遵循」的概念。
  • 隨機(jī)獎(jiǎng)勵(lì):完全任意的反饋 —— 字面意思:1 if (random.random () < rate) else 0
  • 錯(cuò)誤獎(jiǎng)勵(lì):故意設(shè)置錯(cuò)誤的監(jiān)督信號(hào) —— 獲取錯(cuò)誤但可信的標(biāo)簽的步驟:
  1. 按頻率對(duì)模型的 rollout 進(jìn)行排序
  2. 取最常見(jiàn)的答案
  3. 如果答案正確,則丟棄樣本
  4. 在模型最常見(jiàn)答案錯(cuò)誤的子集上進(jìn)行訓(xùn)練,并將該特定答案作為訓(xùn)練標(biāo)簽。

我們還與文獻(xiàn)中研究過(guò)的其他一些弱獎(jiǎng)勵(lì)進(jìn)行了比較:

  • 多數(shù)投票獎(jiǎng)勵(lì):將多數(shù)投票的答案作為標(biāo)簽。
  • 單樣本強(qiáng)化學(xué)習(xí):在單個(gè)樣本上進(jìn)行標(biāo)準(zhǔn)強(qiáng)化學(xué)習(xí)虛擬學(xué)習(xí) (RLVR)。



RLVR 在不同訓(xùn)練信號(hào)上進(jìn)行 150 步訓(xùn)練后的 MATH-500 準(zhǔn)確率。我們證明,即使是「虛假獎(jiǎng)勵(lì)」也能在 Qwen 模型上帶來(lái)顯著的 MATH-500 提升。需要注意的是,這些獎(jiǎng)勵(lì)信號(hào)不適用于其他模型,例如 Llama3 和 OLMo2,因?yàn)樗鼈兊耐评硐闰?yàn)有所不同。

從 AI 社區(qū)廣泛用于強(qiáng)化學(xué)習(xí)的模型 Qwen2.5-Math-7B 開(kāi)始,我們?cè)诙鄠€(gè)數(shù)學(xué)推理基準(zhǔn)測(cè)試中取得了與基于真實(shí)值監(jiān)督模型相當(dāng)?shù)男阅芴嵘?/p>

這一發(fā)現(xiàn)直接挑戰(zhàn)了強(qiáng)化學(xué)習(xí)在提升 AI 推理能力方面所起作用的現(xiàn)有理解。

有反轉(zhuǎn):虛假獎(jiǎng)勵(lì)并非對(duì)所有模型都有效

當(dāng)我們將實(shí)驗(yàn)擴(kuò)展到其他未專(zhuān)門(mén)針對(duì)數(shù)學(xué)推理進(jìn)行優(yōu)化的模型系列(包括 Qwen2.5-Base、Olmo2 和 Llama3 變體)時(shí),觀(guān)察到了一些有趣的現(xiàn)象:

與 Qwen-Math 不同,其他模型在「虛假獎(jiǎng)勵(lì)」方面表現(xiàn)得非常有限。

(我們主要討論 MATH-500 上的表現(xiàn),有關(guān) AMC、AIME 2024,尤其是訓(xùn)練數(shù)據(jù)截止日期之后的 AIME 2025 測(cè)試集的更多結(jié)果,請(qǐng)參閱完整論文 。)

  • 對(duì)真實(shí)標(biāo)簽進(jìn)行首次健全性檢查。它提高了所有模型的性能。在使用真實(shí)標(biāo)簽進(jìn)行簡(jiǎn)單的 GRPO 時(shí),我們看到所有模型系列都得到了改進(jìn),Qwen 和 Qwen-Math 的改進(jìn)比 Llama 和 OLMo 模型更大。
  • 多數(shù)投票結(jié)果如何?先前的研究已提出提高模型一致性的方法。我們發(fā)現(xiàn),這確實(shí)對(duì)大多數(shù)模型有益,但對(duì) OLMo 卻無(wú)益。
  • 如果我們只在響應(yīng)包含 \\boxed {} 時(shí)才給予獎(jiǎng)勵(lì)會(huì)怎么樣?實(shí)驗(yàn)發(fā)現(xiàn),僅僅訓(xùn)練模型生成可解析的結(jié)果,就能在 Qwen 模型上獲得巨大的性能提升 ——Qwen2.5-1.5B 的絕對(duì)提升高達(dá) 49.9%。但這種獎(jiǎng)勵(lì)會(huì)損害 Llama3.2-3B-Instruct 和 OLMo2-SFT-7B 的性能,分別降低 7.3% 和 5.3%。有趣的是,性能在達(dá)到峰值后開(kāi)始逐漸下降。我們假設(shè)這是因?yàn)槟P鸵呀?jīng)「學(xué)習(xí)」了格式,因此進(jìn)一步的訓(xùn)練并不能為其提供更多信息。
  • 錯(cuò)誤的獎(jiǎng)勵(lì) —— 事情開(kāi)始變得有趣起來(lái)。我們發(fā)現(xiàn),它仍然顯著地提高了 Qwen 模型的性能,但對(duì) Llama 模型沒(méi)有影響,并且損害了 OLMo-Base 和 OLMo-SFT 模型。
  • 最后,如果我們不觀(guān)察模型本身,直接隨機(jī)地將獎(jiǎng)勵(lì) 0 或 1 分配給模型,結(jié)果會(huì)怎樣?這仍然有效嗎?你猜對(duì)了,對(duì)于 Qwen 模型有效,但對(duì)于其他模型無(wú)效。

請(qǐng)注意,隨機(jī)獎(jiǎng)勵(lì)在 Qwen2.5-1.5B 中不起作用,并且僅在約 120 步后才在 Qwen2.5-7B 中開(kāi)始起作用。基于這一觀(guān)察,我們對(duì)其進(jìn)行了更長(zhǎng)時(shí)間的訓(xùn)練(300 步),發(fā)現(xiàn)與其他帶信號(hào)的獎(jiǎng)勵(lì)相比,這些模型的收斂水平較低。

這種依賴(lài)于架構(gòu)的行為表明,RLVR 的有效性更多地取決于預(yù)先存在的模型能力,而不是監(jiān)督信號(hào)的質(zhì)量。

給未來(lái)工作的實(shí)踐性警示

Qwen 模型憑借其開(kāi)源權(quán)重和在推理任務(wù)上的高性能,已成為開(kāi)源社區(qū)中 RLVR 研究事實(shí)上的選擇 —— 近期一系列關(guān)于 RLVR 的研究都是基于以 Qwen 為中心的實(shí)驗(yàn)得出結(jié)論的(請(qǐng)參閱原論文以獲取列表)。

然而,我們發(fā)現(xiàn)近期有兩項(xiàng)研究表明,使用弱監(jiān)督的 RLVR 在 Qwen 模型上效果良好,但這些結(jié)論無(wú)法泛化到其他模型家族。

  • 測(cè)試時(shí)強(qiáng)化學(xué)習(xí):該論文提出在測(cè)試樣本上進(jìn)行 RLVR,并使用同策略 (on-policy) 下多數(shù)投票 (majority-voted)的答案來(lái)計(jì)算獎(jiǎng)勵(lì)。
  • 單樣本強(qiáng)化學(xué)習(xí):這篇論文表明,僅用一個(gè)樣本進(jìn)行 RLVR 就可以達(dá)到與在標(biāo)準(zhǔn)訓(xùn)練集上進(jìn)行 RLVR 相當(dāng)?shù)男阅堋?/li>



我們?cè)诙喾N基礎(chǔ)模型上評(píng)估了最近提出的兩種弱監(jiān)督 RL 方法 ——TTRL 和單樣本 RL。我們發(fā)現(xiàn),這些提出的訓(xùn)練獎(jiǎng)勵(lì)在 Qwen 模型上能夠持續(xù)奏效。然而,除了少數(shù)例外,這些相同的信號(hào)在其他模型家族上通常無(wú)法帶來(lái)收益,這與我們使用虛假獎(jiǎng)勵(lì)進(jìn)行訓(xùn)練時(shí)觀(guān)察到的有限泛化能力相呼應(yīng)。

因此,我們建議未來(lái)的 RLVR 研究應(yīng)該在其他模型上進(jìn)行驗(yàn)證。

是什么讓帶有虛假獎(jiǎng)勵(lì)的 RLVR 生效呢?

現(xiàn)在,你可能會(huì)好奇 —— 為什么會(huì)發(fā)生這種情況??為什么所有這些虛假獎(jiǎng)勵(lì) 都在 Qwen-Math 模型上有效?魔法究竟在哪里?

總的來(lái)說(shuō),我們假設(shè) RLVR 訓(xùn)練結(jié)果的差異是由于每個(gè)模型在預(yù)訓(xùn)練過(guò)程中學(xué)到的特定推理策略不同所致。特別是,某些策略可能很容易被 RLVR 引出 (elicited),而其他策略則可能更難顯現(xiàn),或者根本不存在。

我們識(shí)別出了一種這樣的預(yù)存策略:生成代碼以輔助數(shù)學(xué)推理,Qwen-Math 能夠有效利用它,而其他模型家族則利用得較少。我們將代碼推理作為一項(xiàng)有啟發(fā)性的案例研究來(lái)進(jìn)行調(diào)查,但這并非完整的解釋?zhuān)何覀冇^(guān)察到其他一些行為也很容易被引出,并且常常與性能相關(guān),例如「不重復(fù)」。更多詳情請(qǐng)參閱論文。

個(gè)有啟發(fā)性的案例研究:代碼推理

通過(guò)仔細(xì)分析,我們發(fā)現(xiàn)了一個(gè)關(guān)鍵洞察:即使在進(jìn)行 RLVR 訓(xùn)練之前,Qwen-Math 也有 65.0% 的時(shí)間會(huì)生成 Python 代碼來(lái)解決數(shù)學(xué)問(wèn)題。更驚人的是,在沒(méi)有代碼執(zhí)行器的情況下,它常常能生成正確的代碼輸出以及問(wèn)題的正確答案。

然而,這種頻繁且高質(zhì)量的代碼推理能力在其他模型中并不存在。







Qwen2.5-Math-7B 的代碼推理回應(yīng)示例。該問(wèn)題從 MATH-500 測(cè)試集中隨機(jī)選取。請(qǐng)注意,代碼及其執(zhí)行結(jié)果均由 Qwen2.5-Math-7B 自回歸生成 。并未向模型提供外部代碼解釋器。

在應(yīng)用 RLVR 之后,無(wú)論獎(jiǎng)勵(lì)質(zhì)量如何,這種代碼推理的頻率平均增加到 90% 以上。

這種推理策略的轉(zhuǎn)變——而非獲取新的推理技能——似乎是驅(qū)動(dòng)性能提升的原因。Qwen 模型通過(guò) RLVR 訓(xùn)練學(xué)會(huì)了使用更多的代碼推理。從語(yǔ)言推理到代碼推理的轉(zhuǎn)變有效地提升了性能。



對(duì)于 Qwen-Math 和 Qwen 模型而言,代碼頻率與性能高度相關(guān)。代碼越多 —> 正確答案越多,反之亦然。然而,在那些能產(chǎn)生代碼但無(wú)法產(chǎn)生優(yōu)質(zhì)代碼的模型(例如 OLMo2-7B-SFT)中,這種相關(guān)性是相反的。

細(xì)粒度準(zhǔn)確率追蹤 — 我們僅從選擇正確的推理策略中能獲益多少?

更有趣的是,我們追蹤了那些在 RLVR 前后推理策略發(fā)生改變的問(wèn)題,并分析了性能增益究竟從何而來(lái)。我們發(fā)現(xiàn):

  • 虛假獎(jiǎng)勵(lì)在將模型行為轉(zhuǎn)換為代碼推理方面更為激進(jìn),并且極少將原本是代碼推理的行為轉(zhuǎn)變?yōu)樽匀徽Z(yǔ)言推理。令人印象深刻的是,看起來(lái)基于虛假獎(jiǎng)勵(lì)的 RLVR 做出了正確的選擇 —— 對(duì)于那些從自然語(yǔ)言推理切換到代碼推理的問(wèn)題,性能急劇提升了約 55%。另一方面,真實(shí)標(biāo)簽獎(jiǎng)勵(lì)則將自然語(yǔ)言推理的性能提升了 60.2%!下面的流程圖包含了更詳細(xì)的說(shuō)明。



  • 我們進(jìn)一步量化了每種策略轉(zhuǎn)換行為對(duì)每個(gè)模型性能增益的貢獻(xiàn)。看到這一點(diǎn)非常酷:如果一個(gè)模型擅長(zhǎng)代碼推理(代碼準(zhǔn)確率 > 語(yǔ)言準(zhǔn)確率),RLVR 的增益主要來(lái)自于從語(yǔ)言到代碼推理的轉(zhuǎn)換;如果一個(gè)模型不擅長(zhǎng)代碼推理(代碼準(zhǔn)確率 < 語(yǔ)言準(zhǔn)確率),RLVR 的增益則主要來(lái)自于從代碼到語(yǔ)言推理的轉(zhuǎn)換。



在成功引導(dǎo)模型推理策略的獎(jiǎng)勵(lì)上平均計(jì)算,對(duì)整體性能增益的部分貢獻(xiàn)。

基于我們初步觀(guān)察到的這些強(qiáng)相關(guān)性,我們假設(shè)代碼推理是 Qwen 模型中導(dǎo)致良好數(shù)學(xué)性能的推理行為之一。

為了驗(yàn)證我們的假設(shè),我們通過(guò)提示和強(qiáng)化學(xué)習(xí)明確地約束模型生成代碼推理。我們觀(guān)察到,在所有測(cè)試的模型中,代碼推理的頻率與基準(zhǔn)性能之間存在強(qiáng)相關(guān)性。(相關(guān)性的方向取決于特定模型的代碼質(zhì)量)。

通過(guò)提示誘導(dǎo)代碼推理

我們僅僅通過(guò)提示模型,讓它以「讓我們用 Python 來(lái)解決這個(gè)問(wèn)題。」 (Let's solve this using Python) 這句話(huà)來(lái)開(kāi)始其回應(yīng)。這個(gè)簡(jiǎn)單的做法顯著提升了 Qwen-math 模型的性能,但卻降低了 Llama 和 OLMo 模型的性能。

通過(guò)強(qiáng)化學(xué)習(xí) (RL) 誘導(dǎo)代碼推理

鑒于提示實(shí)驗(yàn)的成功,我們?cè)O(shè)計(jì)了一種額外的虛假獎(jiǎng)勵(lì):只要模型的回應(yīng)中包含字符串 python,就給予獎(jiǎng)勵(lì)。這極大地鼓勵(lì)了所有模型去使用代碼推理(在訓(xùn)練 50 步之后,超過(guò) 99% 的回應(yīng)包含代碼)。

在下方的圖表中,我們展示了類(lèi)似的趨勢(shì),但如果我們使用強(qiáng)化學(xué)習(xí)來(lái)訓(xùn)練模型更多地使用 Python 代碼,效果會(huì)更加顯著。Qwen-Math 和 Qwen2.5-7B 模型的性能得到了提升,而其他模型的性能則有所下降。



但為什么要隨機(jī)?

當(dāng)我們看到訓(xùn)練曲線(xiàn)隨著 random.random () < 0.5 產(chǎn)生的獎(jiǎng)勵(lì)而攀升時(shí),我們感到困惑。 完全無(wú)意義、毫無(wú)信息的獎(jiǎng)勵(lì),又怎能真正促進(jìn)模型學(xué)習(xí)呢?

這個(gè)悖論促使我們?nèi)ふ胰斯ぶ悄茴I(lǐng)域的「?jìng)惗厣⒘Α埂?就像電中性的原子之間仍然神秘地相互吸引一樣。在深入研究 GRPO 后,我們發(fā)現(xiàn)裁剪項(xiàng)可能是關(guān)鍵。我們通過(guò)三種方法對(duì)裁剪因子進(jìn)行了消融研究:

(a) 在損失計(jì)算中直接禁用裁剪。

(b) 調(diào)整訓(xùn)練和推演的批量大小,使推演模型與策略保持一致。

(c) 減小推演批量大小以維持等效條件。

方法 (b) 和 (c) 確保每個(gè)推演步驟只有一個(gè)梯度更新,從而自然地避免了裁剪約束。



在 Qwen2.5-Math-7B 模型上,對(duì) GRPO 中的裁剪項(xiàng)進(jìn)行消融研究時(shí)的性能和代碼推理頻率。使用帶有裁剪的隨機(jī)獎(jiǎng)勵(lì)進(jìn)行訓(xùn)練,會(huì)增加代碼推理模式并提高性能。

在使用標(biāo)準(zhǔn) GRPO 裁剪的情況下,隨機(jī)獎(jiǎng)勵(lì)為 Qwen2.5-Math-7B 帶來(lái)了約 21% 的性能提升,并增加了代碼推理模式。但是,當(dāng)我們通過(guò)上述三種方法中的任何一種消除裁剪效應(yīng)時(shí),隨機(jī)獎(jiǎng)勵(lì)并未帶來(lái)任何改善。

我們推測(cè)這是由于 GRPO 公式本身存在的偏差,我們將在下面詳細(xì)說(shuō)明。在裁剪的作用下,隨機(jī)獎(jiǎng)勵(lì)并非教給模型任務(wù)的質(zhì)量 —— 相反,它們觸發(fā)了一種集中效應(yīng) ,使模型專(zhuān)注于其現(xiàn)有的推理模式分布。當(dāng)禁用裁剪時(shí),這種集中機(jī)制就完全消失了。

啟示與未來(lái)工作

  • 虛假獎(jiǎng)勵(lì)通過(guò)放大現(xiàn)有能力起作用: 帶有虛假獎(jiǎng)勵(lì)的 RLVR 可以作為一種機(jī)制,來(lái)放大和凸顯在預(yù)訓(xùn)練過(guò)程中學(xué)到的有用推理表示。當(dāng)提出新的 RLVR 方法時(shí),它們應(yīng)該審視其帶來(lái)的益處是否超越了揭示這些表面模式的層面,以研究真正學(xué)習(xí)發(fā)生的程度。
  • 在更多模型家族上測(cè)試關(guān)于 RL 方法的主張: 鑒于不同的模型家族具有不同的預(yù)存能力,我們建議未來(lái)的 RLVR 研究或許應(yīng)該在多樣化的模型上進(jìn)行驗(yàn)證,而不是僅僅依賴(lài)于單一的「事實(shí)標(biāo)準(zhǔn)」選擇,因?yàn)槲覀円呀?jīng)證明,即使使用完全虛假的獎(jiǎng)勵(lì)信號(hào),也很容易在 Qwen 模型上獲得明顯的性能增益。
  • 首先了解你的模型: 我們應(yīng)該更加意識(shí)到,在預(yù)訓(xùn)練期間學(xué)到的推理模式會(huì)嚴(yán)重影響下游的 RLVR 訓(xùn)練行為 —— 無(wú)論是在設(shè)計(jì)預(yù)訓(xùn)練方法時(shí),還是在使用預(yù)訓(xùn)練模型進(jìn)行 RLVR 時(shí),都應(yīng)如此。

參考內(nèi)容:

https://rethink-rlvr.notion.site/Spurious-Rewards-Rethinking-Training-Signals-in-RLVR-1f4df34dac1880948858f95aeb88872f

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
日本為什么能在中國(guó)辦學(xué)校?是誰(shuí)點(diǎn)的頭?這背后到底有啥隱情?

日本為什么能在中國(guó)辦學(xué)校?是誰(shuí)點(diǎn)的頭?這背后到底有啥隱情?

小談食刻美食
2025-06-12 16:46:19
ICE出現(xiàn)在爾灣逮捕非法移民!爾灣市議員:快躲起來(lái)

ICE出現(xiàn)在爾灣逮捕非法移民!爾灣市議員:快躲起來(lái)

大洛杉磯LA
2025-06-14 06:47:07
從小被允許吃冷飲和不允許吃的孩子,長(zhǎng)大后真的不一樣,要注意!

從小被允許吃冷飲和不允許吃的孩子,長(zhǎng)大后真的不一樣,要注意!

特約前排觀(guān)眾
2025-06-02 00:10:05
最高法:被執(zhí)行人無(wú)可供執(zhí)行財(cái)產(chǎn)時(shí),法院有權(quán)查控其配偶名下財(cái)產(chǎn)

最高法:被執(zhí)行人無(wú)可供執(zhí)行財(cái)產(chǎn)時(shí),法院有權(quán)查控其配偶名下財(cái)產(chǎn)

上海公鼎律師事務(wù)所
2025-06-13 18:34:04
內(nèi)塔尼亞胡發(fā)聲:以色列飛行員正在對(duì)伊朗境內(nèi)大量目標(biāo)發(fā)動(dòng)打擊

內(nèi)塔尼亞胡發(fā)聲:以色列飛行員正在對(duì)伊朗境內(nèi)大量目標(biāo)發(fā)動(dòng)打擊

環(huán)球網(wǎng)資訊
2025-06-13 09:12:12
皇馬付了6320萬(wàn)!河床俱樂(lè)部?jī)舻?500萬(wàn)歐 西班牙稅務(wù)局收1180萬(wàn)

皇馬付了6320萬(wàn)!河床俱樂(lè)部?jī)舻?500萬(wàn)歐 西班牙稅務(wù)局收1180萬(wàn)

直播吧
2025-06-13 21:36:16
烏克蘭防線(xiàn)告急!扎哈羅娃“誅心”嘲諷

烏克蘭防線(xiàn)告急!扎哈羅娃“誅心”嘲諷

看看說(shuō)說(shuō)
2025-06-13 19:40:52
央視曝驚天騙局!成本1元賣(mài)800,無(wú)數(shù)女孩受害,下場(chǎng)凄慘仍有人吃

央視曝驚天騙局!成本1元賣(mài)800,無(wú)數(shù)女孩受害,下場(chǎng)凄慘仍有人吃

阿纂看事
2025-06-13 16:44:28
公安部的禁酒令及宴請(qǐng)規(guī)定:公職人員下班聚餐和飲酒也算違規(guī)?

公安部的禁酒令及宴請(qǐng)規(guī)定:公職人員下班聚餐和飲酒也算違規(guī)?

二月侃事
2025-05-28 08:18:10
《醬園弄》劇組亮相上海電影節(jié),章子怡穩(wěn)居c位,梅婷楊冪靠邊站

《醬園弄》劇組亮相上海電影節(jié),章子怡穩(wěn)居c位,梅婷楊冪靠邊站

牡丹講娛
2025-06-14 19:46:14
楊冪私下穿的吊帶也太大膽了吧!瞬間覺(jué)得趙麗穎那個(gè)沒(méi)眼看了

楊冪私下穿的吊帶也太大膽了吧!瞬間覺(jué)得趙麗穎那個(gè)沒(méi)眼看了

娛樂(lè)小丸子
2025-06-04 10:07:57
腐爛的尸體異常難聞,外國(guó)教堂是如何鎖住尸臭,讓圣地保持神圣?

腐爛的尸體異常難聞,外國(guó)教堂是如何鎖住尸臭,讓圣地保持神圣?

詩(shī)意世界
2025-06-13 23:57:48
對(duì)于器官移植老百姓最關(guān)注的是器官是從誰(shuí)身上移植下來(lái)的!

對(duì)于器官移植老百姓最關(guān)注的是器官是從誰(shuí)身上移植下來(lái)的!

逍遙論經(jīng)
2025-06-09 10:15:47
43歲的蔣欣醫(yī)美了?和以前相比判若兩人,一臉苦相

43歲的蔣欣醫(yī)美了?和以前相比判若兩人,一臉苦相

楊哥歷史
2025-06-09 09:23:18
【文體市場(chǎng)面面觀(guān)】農(nóng)文旅融合如何“四季紅”

【文體市場(chǎng)面面觀(guān)】農(nóng)文旅融合如何“四季紅”

經(jīng)濟(jì)日?qǐng)?bào)
2025-06-14 05:04:15
剛加盟5個(gè)月!利雅得勝利前鋒身價(jià)6400萬(wàn),因水土不服萌生去意?

剛加盟5個(gè)月!利雅得勝利前鋒身價(jià)6400萬(wàn),因水土不服萌生去意?

星耀國(guó)際足壇
2025-06-14 23:23:30
上海金融精英淪為階下囚!他毀掉了很多家庭,被判無(wú)期徒刑...“這種痛,永遠(yuǎn)讓我窒息”

上海金融精英淪為階下囚!他毀掉了很多家庭,被判無(wú)期徒刑...“這種痛,永遠(yuǎn)讓我窒息”

上觀(guān)新聞
2025-06-14 22:33:49
絲路古道煥新機(jī)

絲路古道煥新機(jī)

新華社
2025-06-13 13:31:36
3-0,47歲李金羽神了:率隊(duì)狂攬29分,反超重慶銅梁龍升至第一

3-0,47歲李金羽神了:率隊(duì)狂攬29分,反超重慶銅梁龍升至第一

側(cè)身凌空斬
2025-06-14 20:57:14
以媒披露:摩薩德在伊朗境內(nèi)建立無(wú)人機(jī)基地,部署了精確制導(dǎo)武器

以媒披露:摩薩德在伊朗境內(nèi)建立無(wú)人機(jī)基地,部署了精確制導(dǎo)武器

齊魯壹點(diǎn)
2025-06-13 17:35:21
2025-06-15 01:39:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專(zhuān)業(yè)的人工智能媒體
10640文章數(shù) 142338關(guān)注度
往期回顧 全部

科技要聞

一輛新車(chē)比特斯拉FSD都便宜,全行業(yè)陪葬?

頭條要聞

以防長(zhǎng)威脅哈梅內(nèi)伊:若繼續(xù)發(fā)射導(dǎo)彈 德黑蘭將成火海

頭條要聞

以防長(zhǎng)威脅哈梅內(nèi)伊:若繼續(xù)發(fā)射導(dǎo)彈 德黑蘭將成火海

體育要聞

約戰(zhàn)天王山,步行者G4輸在了哪?

娛樂(lè)要聞

小S迎47歲生日,首個(gè)生日沒(méi)大S陪伴

財(cái)經(jīng)要聞

樓市權(quán)威發(fā)聲

汽車(chē)要聞

長(zhǎng)城為了拿環(huán)塔冠軍有多拼?魏建軍在下一盤(pán)大棋!

態(tài)度原創(chuàng)

教育
時(shí)尚
家居
旅游
軍事航空

教育要聞

速看!北京中學(xué)招聘教師啦

中年女人少穿黑色和灰色,年輕色穿出減齡效果,看起來(lái)嫩十歲

家居要聞

森林幾何 極簡(jiǎn)灰調(diào)原木風(fēng)

旅游要聞

熱聞|清明假期將至,熱門(mén)目的地有哪些?

軍事要聞

伊媒:以色列國(guó)防部大樓被伊朗導(dǎo)彈擊中

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 午夜毛片不卡高清免费看| 亚洲精品中文字幕| 小13箩利洗澡无码免费视频| 午夜精品久久久久久不卡| 色哟哟国产精品免费观看| 久久久噜噜噜www成人网| 久久久久亚洲av无码专区桃色| 国产伦精品一区二区三区免费| 免费大片黄国产在线观看| 97无码视频在线看视频| 色综合色天天久久婷婷基地| 国产成人久久综合77777| 日韩高清成片免费视频| 一品二品三品中文字幕| 亚洲性人人天天夜夜摸| 无码乱人伦一区二区亚洲一| 国产v亚洲v天堂无码| 99国产欧美另娄久久久精品| 亚洲精品人成网线在播放va| 中国女人内谢69xxxxxa片| 国产精品久久久久9999高清| 日韩av无码久久精品免费| 亚洲 欧美 国产 日韩 精品| 久久综合给综合给久久| 欧美精品videosex极品| 秋霞最新高清无码鲁丝片| 产后漂亮奶水人妻无码| 一本色道无码道dvd在线观看| 成人无码精品免费视频在线观看| 三叶草欧洲码在线| av无码中文字幕不卡一区二区三区| 国产精品亚洲а∨无码播放不卡| 粗大的内捧猛烈进出看视频| 老熟女重囗味hdxx70星空| 亚洲午夜未满十八勿入网站| 日韩内射美女片在线观看网站| 中文字幕av一区二区三区人妻少妇| 国产精品无码av无码| 亚洲精品无码永久中文字幕| 亚洲欧美中文字幕5发布| 四虎影视4hu4虎成人|