大香大香伊人在钱线久久,亚洲日韩欧美国产高清αv,日本强伦姧人妻久久影片,亚洲国产成人欧美在线观看

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

爆火論文顛覆RL認(rèn)知!「錯誤獎勵」讓LLM推理暴漲24.6%,學(xué)界驚了

0
分享至


新智元報道

編輯:桃子 好困

【新智元導(dǎo)讀】錯誤獎勵,也能讓AI推理開掛!最新研究證明,偽獎勵讓LLM推理性能暴漲24.6%,一舉顛覆傳統(tǒng)的RL訓(xùn)練認(rèn)知。

今早的一篇爆火論文,徹底顛覆了人們對「強化學(xué)習(xí)」的傳統(tǒng)認(rèn)知。

僅用隨機獎勵,甚至是錯誤答案,也能讓AI在數(shù)學(xué)推理中性能暴漲!

來自華盛頓大學(xué)、AI2、UC伯克利研究團隊證實,「偽獎勵」(Spurious Rewards)也能帶來LLM推理能力提升的驚喜。


地址:https://rethink-rlvr.notion.site/Spurious-Rewards-Rethinking-Training-Signals-in-RLVR-1f4df34dac1880948858f95aeb88872f

實驗中,他們用偽獎勵訓(xùn)練了Qwen2.5-Math-7B,在MATH-500數(shù)據(jù)集中發(fā)現(xiàn):

格式獎勵性能提升16.4%;錯誤獎勵提升24.6%;隨機獎勵提升21.4%。

可見,偽獎勵如同黑魔法,能夠讓Qwen的數(shù)學(xué)能力整體實現(xiàn)15-20%的飆升。

然而,對Qwen有效的偽獎勵在其他模型中,如Llama3、OLMo2,突然失效。


值得一提的是,他們還發(fā)現(xiàn)RLVR可以激勵Qwen2.5-Math的獨特行為,其在代碼推理上,性能從66.7%飆升至90%。

即便是使用偽獎勵,結(jié)果也是如此。

當(dāng)隨機獎勵可以大幅提升模型性能,就得重新思考:到底是RL在學(xué)習(xí),還是在放大「先驗」行為?

谷歌DeepMind研究科學(xué)家Xidong Feng表示,這篇論文會讓一大堆LLM+RL的研究受到質(zhì)疑。


另一位DeepMind科學(xué)家Andrew Lampinen稱贊道,這確實是一個反常識典型案例。


隨機獎勵,竟破解了RLVR

在大模型訓(xùn)練中,可驗證獎勵強化學(xué)習(xí)(RLVR)是一種提升推理能力常見的策略。

傳統(tǒng)觀念認(rèn)為,RLVR的成功離不開「高質(zhì)量」的獎勵信號。

就好比,老師給學(xué)生的正確答案,或評分一樣,只有「教得對」,才能「學(xué)得好」。

而這項新研究,直接挑戰(zhàn)了RLVR這一觀念。


如上所見,即使獎勵信號完全隨機,甚至給出誤導(dǎo)性的信號,Qwen-Math依然能在數(shù)學(xué)推理上取得驚人的進(jìn)步。

這到底是怎么回事?對此,研究人員發(fā)起了疑問——

單樣本或無監(jiān)督RLVR的訓(xùn)練信號從何而來?獎勵提供有意義的RLVR訓(xùn)練信號的最低要求是什么?


實驗設(shè)置

針對Qwen-Math、Llama 3.1、OLMo2模型,研究人員為其設(shè)置了三種有趣的偽獎勵形式:

· 格式獎勵:僅回答包含\boxed{}就給予獎勵。這種格式在模型系統(tǒng)中已指定,類似指令遵循的概念。

· 隨機獎勵:完全隨機的反饋。簡單來說,如果 random.random() < rate 則 1,否則 0

· 錯誤獎勵:故意提供錯誤的監(jiān)督信號。

在錯誤獎勵中,人為構(gòu)造錯誤且具有迷惑性答案的步驟:

按頻率對模型的輸出進(jìn)行排序;選取最常見的回答;如果該回答正確,則丟棄該樣本;在模型最常見回答錯誤的子集上進(jìn)行訓(xùn)練,并使用該特定回答作為訓(xùn)練標(biāo)簽。

此外,在比較過程中,研究團隊還引入了弱獎勵:

· 多數(shù)投票獎勵:以多數(shù)投票的答案作為標(biāo)簽

· 單樣本RL:在單個樣本上進(jìn)行標(biāo)準(zhǔn)RLVR

針對數(shù)學(xué)優(yōu)化的Qwen模型,不論是在MATH、AMC,還是AIME基準(zhǔn)上,數(shù)學(xué)推理性能都有大幅提升。


劇情反轉(zhuǎn)

偽獎勵并非對所有模型都有效

然而,對于那些未針對數(shù)學(xué)推理優(yōu)化模型,研究人員觀察到了有趣的現(xiàn)象。

與其他模型不同,Qwen-Math在「偽獎勵」下表現(xiàn)提升甚微。具體來說,Qwen 2.5-7B在錯誤獎勵下的性能28.5%,接近于真實獎勵的33.3%。

而在Llama3.1、OLMo2這兩款模型上,劇情更是出現(xiàn)了大反轉(zhuǎn)。

Llama3.1-8B-Instruct在錯誤獎勵在提升僅1.3%,而隨機獎勵性能暴減4.9%。

與此同時,OLMo2-7B在偽獎勵情況下,把性能衰退更是展現(xiàn)地淋漓盡致。

此外,研究團隊還發(fā)現(xiàn),對真實標(biāo)簽(ground truth labels)進(jìn)行簡單的GRPO訓(xùn)練時,可以提升所有模型的性能。

其中,Qwen和Qwen-Math模型,相比Llama和OLMo模型提升更為顯著。


在多數(shù)投票獎勵中,此前已有研究提出用其來提升模型的一致性。實驗中,作者發(fā)現(xiàn)它確實對大多數(shù)模型都有幫助,但對OLMo無效。


針對格式獎勵,他們還發(fā)現(xiàn),僅教模型生成可解析的結(jié)果,就能在Qwen模型上獲得「巨大」的性能提升。

結(jié)果顯示,Qwen2.5-1.5B絕對性能提升高達(dá)49.9%。

但這種獎勵,卻讓Llama3.2-3B-Instruct和OLMo2-SFT-7B的性能,分別降低了7.3%和5.3%。


有趣的是,模型的性能在達(dá)到峰值后,逐漸下降。

這里,研究人員推測這是因為模型已「學(xué)會」該格式,進(jìn)一步訓(xùn)練不再提供更多信息。

在錯誤獎勵的實驗中,Qwen模型性能仍顯著提升 ,但其對Llama無影響,并損害了OLMo-Base和OLMo-SFT的性能。


接下來,如果完全不看回答內(nèi)容,隨機分配0或1的獎勵,會有效嗎?

答案是——對于Qwen是有效的,但對其他模型無效。

值得注意的是,隨機獎勵對Qwen2.5-1.5B無效,且對Qwen2.5-7B需訓(xùn)練約120步后,才開始生效。

因此,研究人員訓(xùn)練了更長時間(300 步),發(fā)現(xiàn)模型在隨機獎勵下的收斂水平低于其他有信號的獎勵。


這種依賴于模型架構(gòu)的行為表明,RLVR的有效性更多取決于模型預(yù)訓(xùn)練時的能力,而非監(jiān)督信號的質(zhì)量。

如今,Qwen因強大推理性能,已成為開源社區(qū)RLVR研究的默認(rèn)選擇。

針對以上「偽獎勵」的實驗結(jié)果,研究人員對未來的研究給出了一些建議。

近期兩項研究表明,RLVR僅在「弱監(jiān)督」下對Qwen模型有效,但這些結(jié)論無法推廣到其他模型系列:

1. 測試時強化學(xué)習(xí)(TTRL):在測試階段,實時收集多個輸出答案,用多數(shù)投票結(jié)果作為獎勵信號

2. 單樣本強化學(xué)習(xí)(1-shot RL):僅用單個樣本的RLVR訓(xùn)練,就能達(dá)到傳統(tǒng)大規(guī)模訓(xùn)練集的效果


因此,未來的RLVR研究,還應(yīng)在其他模型上進(jìn)行驗證。

偽獎勵,為何在RLVR中有效?

現(xiàn)在,你可能會好奇——這到底是怎么回事?為什么這些偽獎勵在Qwen-Math上有效?

研究人員假設(shè),RLVR訓(xùn)練結(jié)果的差異源于各模型在預(yù)訓(xùn)練期間,學(xué)習(xí)的特定推理策略的不同。

特別是,某些策略可能更容易被RLVR激發(fā),而其他策略可能更難以顯現(xiàn)或完全缺乏。


案例研究:代碼推理

通過仔細(xì)分析,研究者發(fā)現(xiàn)了一個關(guān)鍵洞察:

Qwen-Math在RLVR訓(xùn)練前,就有65.0%的概率使用Python代碼來解決數(shù)學(xué)問題。

更令人印象深刻的是,即使沒有代碼執(zhí)行器,它也常常能生成正確的代碼輸出以及問題的正確答案。

然而,這種頻繁且高質(zhì)量的代碼推理能力在其他模型中并不存在。在應(yīng)用RLVR后,無論獎勵質(zhì)量如何,Qwen-Math 的代碼推理頻率平均增加到超過90%。


如下示例中,展示了Qwen-Math-7B如何精確預(yù)測3√13到小數(shù)點后15位。

令作者驚訝的是,這比iPhone計算器還多出一位精度。


這種推理策略的轉(zhuǎn)變,而非獲得新的推理技能,似乎是性能提升的一種驅(qū)動力。

Qwen模型通過RLVR訓(xùn)練學(xué)會更多地使用代碼推理——從語言推理到代碼推理的轉(zhuǎn)變有效地提升了性能。

對于Qwen-Math和Qwen模型,代碼使用頻率與性能高度相關(guān)。

代碼越多,正確答案越多,反之亦然。

然而,在那些能生成代碼但無法生成高質(zhì)量代碼的模型,如OLMo2-7B-SFT,這種相關(guān)性是相反的。


由此,研究人員得出——生成代碼以輔助數(shù)學(xué)推理訓(xùn)練策略,Qwen-Math能加以有效利用,而其他模型家族則不然。

正確的推理策略,性能提升比?

更有趣的是,研究人員還追蹤了RLVR前后推理策略發(fā)生切換的問題,并分析性能提升的具體來源。

如下圖所示,「偽獎勵」在將模型行為切換到代碼推理方面更為激進(jìn),且很少將原本的代碼推理行為轉(zhuǎn)為自然語言推理。

令人印象深刻的是,偽獎勵下的RLVR似乎做出了正確的選擇——從自然語言推理切換到代碼推理的問題,性能提升了約55%。

另一方面,真實獎勵則將自然語言推理的性能提升了60.2%!


接下來,研究人員進(jìn)一步量化了每種策略切換行為,對各模型性能提升的貢獻(xiàn)。

有趣的是,如果模型擅長代碼推理(代碼準(zhǔn)確率>語言準(zhǔn)確率),RLVR性能提升主要來自從語言推理到代碼推理的切換;反之亦然。


成功引導(dǎo)模型推理策略的獎勵對總體性能提升的部分貢獻(xiàn)平均值

基于這些初步觀察中的強相關(guān)性,他們假設(shè)代碼推理是Qwen模型在數(shù)學(xué)任務(wù)中表現(xiàn)優(yōu)異的一種推理行為。

為了驗證這一假設(shè),研究人員通過提示和RL明確約束模型生成代碼推理。

結(jié)果觀察到,所有測試模型的代碼推理頻率與基準(zhǔn)測試性能之間存在強相關(guān)性。(相關(guān)性的方向取決于特定模型的代碼質(zhì)量)。

· 通過提示誘導(dǎo)代碼推理

簡單提示模型以「讓我們用Python解決這個問題」開始回答,這顯著提升了 Qwen-Math 模型的性能,但降低了Llama和OLMo模型的性能。


· 通過強化學(xué)習(xí)誘導(dǎo)代碼推理

在提示實驗成功后,研究者設(shè)計了一個額外的偽獎勵,只要回答中包含字符串「python」,就給予獎勵。

這強烈鼓勵所有模型使用代碼推理,在第50步后代碼推理占比>99%。

在下圖中,展示了類似趨勢,但通過RL訓(xùn)練模型使用更多Python代碼時,效果更加顯著。Qwen-Math和Qwen2.5-7B的性能提升,而其他模型的性能下降。


但,為什么是隨機的?

當(dāng)研究人員看到使用random.random() < 0.5生成的獎勵,使得訓(xùn)練曲線上升時,感到非常困惑。

完全無意義的獎勵——不提供任何信息的獎勵——怎么可能幫助模型學(xué)習(xí)?

這個悖論讓我們開始尋找 AI 的「倫敦色散力」(London dispersion force of AI)——就像電中性原子之間仍然神秘地相互吸引一樣。


在深入研究GRPO后,作者發(fā)現(xiàn)裁剪(clipping)項可能是關(guān)鍵。他們通過以下三種方法對裁剪因子進(jìn)行了消融實驗:

(a) 直接在損失計算中禁用裁剪,

(b) 調(diào)整訓(xùn)練和rollout批大小,使展開模型與策略模型保持一致,

(c) 減少展開大小以維持等效條件。

方法 (b) 和 (c) 確保每次展開步驟僅進(jìn)行一次梯度更新,自然避免了裁剪約束。

在 Qwen2.5-Math-7B 上消融 GRPO 中裁剪項時的性能和代碼推理頻率。使用隨機獎勵并啟用裁剪的訓(xùn)練增加了代碼推理模式并提升了性能。


總體而言,所有無裁剪運行的方差都很大,尤其是那些進(jìn)行8次梯度更新,且物理關(guān)閉裁剪功能的運行(綠色)。

這些無裁剪運行的平均值與啟用裁剪和隨機獎勵的標(biāo)準(zhǔn)GRPO損失相比,呈現(xiàn)出平坦的曲線。

在標(biāo)準(zhǔn)GRPO裁剪下,隨機獎勵讓Qwen2.5-Math-7B性能提升21%,并增加了代碼推理模式。

但當(dāng)研究人員通過上述三種方法消除裁剪效果時,隨機獎勵沒有帶來任何改進(jìn)。他們推測,這是由于GRPO公式本身的偏見。

在裁剪下,隨機獎勵并不會教授任務(wù)質(zhì)量,而是觸發(fā)了一種集中效應(yīng),使模型專注于其現(xiàn)有的推理模式分布。

當(dāng)裁剪被禁用時,這種集中機制完全消失。

作者介紹


Rulin Shao


Rulin Shao是華盛頓大學(xué)的二年級博士生,師從Pang Wei Koh教授和Luke Zettlemoyer教授。同時,她還是Meta的訪問研究員,與Scott Yih及Mike Lewis共事。

她在卡內(nèi)基梅隆大學(xué)獲得機器學(xué)習(xí)碩士學(xué)位,師從Eric Xing教授;本科畢業(yè)于西安交通大學(xué),獲數(shù)學(xué)學(xué)士學(xué)位。

她的研究興趣主要集中在信息檢索與生成模型之間的協(xié)同增效作用。此外,也關(guān)注視覺語言多模態(tài)學(xué)習(xí)以及長上下文建模等領(lǐng)域。

Stella Li


Stella Li是華盛頓大學(xué)艾倫計算機科學(xué)與工程學(xué)院的二年級博士生,師從Yulia Tsvetkov教授。

此前,她在約翰斯·霍普金斯大學(xué)獲得了計算機科學(xué)、認(rèn)知科學(xué)(側(cè)重語言學(xué))及應(yīng)用數(shù)學(xué)(側(cè)重統(tǒng)計學(xué))專業(yè)的學(xué)士和碩士學(xué)位。期間,她曾在學(xué)校的語言與語音處理中心擔(dān)任研究助理,師從Philipp Koehn教授和Kenton Murray教授。

她的研究領(lǐng)域是自然語言處理,尤其是對運用計算方法建模乃至揭示認(rèn)知過程深感興趣。此外,研究興趣還包括臨床推理、社會推理、以人為本的NLP、多語言處理等諸多方向。

Rui Xin


Rui Xin是華盛頓大學(xué)的一名博士生,師從Pang Wei Koh教授和Sewoong Oh教授。

此前,他在杜克大學(xué)獲得數(shù)學(xué)與計算機科學(xué)專業(yè)的學(xué)士學(xué)位,師從Cynthia Rudin教授和Margo Seltzer教授。

他的研究興趣是隱私保護(hù)機器學(xué)習(xí)。

Scott K. Geng


Scott K. Geng是華盛頓大學(xué)的博士生,師從Pang Wei Koh教授和Ranjay Krishna教授。

此前,他在哥倫比亞大學(xué)獲得數(shù)學(xué)與計算機科學(xué)專業(yè)的學(xué)士學(xué)位,師從Carl Vondrick教授和Junfeng Yang教授。

他對計算機視覺和自然語言處理等領(lǐng)域有著廣泛的興趣。

參考資料:

https://x.com/StellaLisy/status/1927392717593526780

https://rethink-rlvr.notion.site/Spurious-Rewards-Rethinking-Training-Signals-in-RLVR-1f4df34dac1880948858f95aeb88872f


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
最新戰(zhàn)況:以色列損失慘重,F(xiàn)-35被擊落,到處都是爆炸聲

最新戰(zhàn)況:以色列損失慘重,F(xiàn)-35被擊落,到處都是爆炸聲

時時有聊
2025-06-14 11:54:59
國家級健身教練唐博濤去世,僅37歲,滿身肌肉很健碩,死因疑曝光

國家級健身教練唐博濤去世,僅37歲,滿身肌肉很健碩,死因疑曝光

180視角
2025-06-14 12:20:45
河南禁酒令大反轉(zhuǎn)!本以為是“硬核新規(guī)”,官方回應(yīng),網(wǎng)友:理解

河南禁酒令大反轉(zhuǎn)!本以為是“硬核新規(guī)”,官方回應(yīng),網(wǎng)友:理解

溫讀史
2025-06-14 09:56:47
55歲王中磊在湖北買山養(yǎng)老,山上小院幾千平,還有竹林和百年古樹

55歲王中磊在湖北買山養(yǎng)老,山上小院幾千平,還有竹林和百年古樹

深析古今
2025-06-14 14:08:16
國防大學(xué)的教授也是一個水貨

國防大學(xué)的教授也是一個水貨

回旋鏢
2025-06-14 15:59:57
燃油車天要塌了!國產(chǎn)固態(tài)電池宣布量產(chǎn),充電6分鐘跑1000km

燃油車天要塌了!國產(chǎn)固態(tài)電池宣布量產(chǎn),充電6分鐘跑1000km

小李車評李建紅
2025-06-13 06:53:10
11國棄權(quán),中方反對票失效,以方侵犯伊朗主權(quán),更可怕的還在后面

11國棄權(quán),中方反對票失效,以方侵犯伊朗主權(quán),更可怕的還在后面

吳欣純Deborah
2025-06-14 16:59:12
李連杰宣布跟41歲兒子父親節(jié)重聚,久別30年攬實眼濕濕

李連杰宣布跟41歲兒子父親節(jié)重聚,久別30年攬實眼濕濕

快樂的小青瓦
2025-06-14 15:03:39
7國加入戰(zhàn)場,伊朗要被群毆?局勢變成5對2,中方不再靜觀其變

7國加入戰(zhàn)場,伊朗要被群毆?局勢變成5對2,中方不再靜觀其變

阿傖說事
2025-06-14 23:10:38
容祖兒與老板楊受成出席香港車展,祖兒黑臉不讓扶

容祖兒與老板楊受成出席香港車展,祖兒黑臉不讓扶

鄉(xiāng)野小珥
2025-06-13 10:29:29
女生杭州萬象城遭挾制被捅20余刀,歹徒現(xiàn)場磨刀,假體成護(hù)身符

女生杭州萬象城遭挾制被捅20余刀,歹徒現(xiàn)場磨刀,假體成護(hù)身符

小人物看盡人間百態(tài)
2025-06-14 05:30:05
中紀(jì)委怒批公務(wù)員也是人!正常生活不應(yīng)問責(zé)處!

中紀(jì)委怒批公務(wù)員也是人!正常生活不應(yīng)問責(zé)處!

霹靂炮
2025-06-13 23:49:27
伊朗伊斯蘭共和國廣播電視臺:伊朗伊斯蘭革命衛(wèi)隊總司令侯賽因·薩拉米13日凌晨被以色列暗殺

伊朗伊斯蘭共和國廣播電視臺:伊朗伊斯蘭革命衛(wèi)隊總司令侯賽因·薩拉米13日凌晨被以色列暗殺

上觀新聞
2025-06-13 10:22:46
格力暴雷!負(fù)債248億,股權(quán)遭凍結(jié),董明珠終為她的決定付出代價

格力暴雷!負(fù)債248億,股權(quán)遭凍結(jié),董明珠終為她的決定付出代價

深析古今
2025-06-14 17:15:12
茅臺經(jīng)銷商慌了!有評論分析,飛天若到1900元,多數(shù)經(jīng)銷商要賠錢

茅臺經(jīng)銷商慌了!有評論分析,飛天若到1900元,多數(shù)經(jīng)銷商要賠錢

火山詩話
2025-06-14 17:28:45
一查嚇一跳!湖南湘雅二醫(yī)院的院長竟然是八零后,40歲就上位了…

一查嚇一跳!湖南湘雅二醫(yī)院的院長竟然是八零后,40歲就上位了…

火山詩話
2025-06-14 06:17:52
央視首次曝光!每臺4億美元重180噸,全世界最先進(jìn)光刻機揭開面紗

央視首次曝光!每臺4億美元重180噸,全世界最先進(jìn)光刻機揭開面紗

史紀(jì)文譚
2025-06-14 13:23:51
千萬別急,經(jīng)濟正在扭轉(zhuǎn)!

千萬別急,經(jīng)濟正在扭轉(zhuǎn)!

子木聊房
2025-06-12 18:51:08
跌太猛了!浙江余杭這個小區(qū)從214萬暴跌到80萬,跌幅超過60%…

跌太猛了!浙江余杭這個小區(qū)從214萬暴跌到80萬,跌幅超過60%…

火山詩話
2025-06-14 14:30:42
丟人啊!百度流量只占10%!馬上要被Google反超了

丟人啊!百度流量只占10%!馬上要被Google反超了

機械狗
2025-06-14 10:30:30
2025-06-15 04:00:49
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺領(lǐng)航智能+時代
12876文章數(shù) 66068關(guān)注度
往期回顧 全部

科技要聞

一輛新車比特斯拉FSD都便宜,全行業(yè)陪葬?

頭條要聞

以防長威脅哈梅內(nèi)伊:若繼續(xù)發(fā)射導(dǎo)彈 德黑蘭將成火海

頭條要聞

以防長威脅哈梅內(nèi)伊:若繼續(xù)發(fā)射導(dǎo)彈 德黑蘭將成火海

體育要聞

約戰(zhàn)天王山,步行者G4輸在了哪?

娛樂要聞

小S迎47歲生日,首個生日沒大S陪伴

財經(jīng)要聞

樓市權(quán)威發(fā)聲

汽車要聞

長城為了拿環(huán)塔冠軍有多拼?魏建軍在下一盤大棋!

態(tài)度原創(chuàng)

時尚
房產(chǎn)
本地
教育
健康

中年女人少穿黑色和灰色,年輕色穿出減齡效果,看起來嫩十歲

房產(chǎn)要聞

又一城購房補貼!買房就發(fā)錢,正在海南樓市瘋狂擴散!

本地新聞

最近的打工人,都在熬夜看這劇逐幀學(xué)習(xí)職場小技巧

教育要聞

江蘇最新消息:6月28日填報志愿!

呼吸科專家破解呼吸道九大謠言!

無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 成人做爰100部片免费下载| 一区二区伊人久久大杳蕉| 亚洲综合成人婷婷五月网址| 国产猛烈高潮尖叫视频免费| 老色鬼在线精品视频| 亚洲综合欧美制服丝袜| 亚洲精品亚洲人成在线观看麻豆| 失禁大喷潮在线播放| 翘臀后进少妇大白嫩屁股| 国产精品久久久久久亚洲影视内衣| 日本真人边吃奶边做爽电影| 日韩丰满少妇无吗视频激情内射| 国内老熟妇对白xxxxhd| 国产黑色丝袜在线观看下| 国模丽丽啪啪一区二区| 熟妇女人妻丰满少妇中文字幕| 午夜成人无码福利免费视频| 99热都是精品久久久久久| 青青草99久久精品国产综合| 天天狠天天透天干天天怕| 亚洲成a人片在线观看无码| 中国少妇xxxx做受| 久久久久亚洲精品中文字幕| 色综合 图片区 小说区| 粉嫩被粗大进进出出视频| 免费观看又色又爽又湿的视频| 蜜臀av福利无码一二三| 国产精品白丝av嫩草影院| 国产免费久久精品99久久| 99大香伊乱码一区二区| 蜜桃精品成人影片| 亚洲αv久久久噜噜噜噜噜| 亚洲天堂2017无码中文| 男人的天堂免费a级毛片无码| 国产精品乱码人妻一区二区三区| 中字无码av电影在线观看网站| 自拍偷在线精品自拍偷无码专区| 久久久久久亚洲综合影院| 碰超免费人妻中文字幕| 国产精品一卡二卡三卡| 久久久久成人片免费观看蜜芽|