大香大香伊人在钱线久久,亚洲日韩欧美国产高清αv,日本强伦姧人妻久久影片,亚洲国产成人欧美在线观看

網易首頁 > 網易號 > 正文 申請入駐

推理性能PK,華為+DeepSeek >英偉達?

0
分享至


虎嗅注:

“大模型江湖,落地為王。”這句話的含金量還在提升。隨著DeepSeek V3/R1在春節期間一夜爆火,基于超大規模MoE(Mixture of Experts)架構的大模型正在從訓練開發轉向推理應用的落地。

對于MoE推理部署來說,效率一直是一個痛點。誰能將部署計算效率提升至最高,才能真正獲得大模型商業成功。但受限于龐大的模型容量與計算需求,傳統部署方案通常依賴于多張數據中心級GPU(如H20)。你我都知道,英偉達不僅貴,而且不斷受到地緣政治摩擦的影響,不斷降低自己的性能來滿足監管需求。

而在最近,華為全面揭秘超大規模MoE模型推理部署技術,不僅實現了國產的進一步突破,更全面超越了基于英偉達Hopper架構的推理部署性能。

他們是怎么做到的?

數學補物理,極致提升計算效率

“數學補物理”,這種通過數學理論、工具、算法和建模等方式,來彌補硬件和工藝的局限性,實現最大化發揮芯片和系統能力效果。華為輪值董事長孟晚舟曾在2025年新年致辭中提到:


“華為十多個實驗室與伙伴們的工程師組成“大雜燴”團隊,面對天成AI集群系統和單芯片性能的嚴峻工程挑戰,他們創造性應用數學補物理、非摩爾補摩爾、系統補單點等思想,在散熱、供電、高速、高密及大芯片在板可靠性等工程領域突破極限?!?/blockquote>

華為技術團隊面向超大規模MoE模型的推理技術優化也是圍繞著數學補物理這一思路,充分發揮等價數學變換,也就是在保持數學對象本質屬性不變的前提下,通過數學變形、邏輯轉換或結構重構等方式提升計算效率的方法,極致的提升了硬件集群的算力利用率,包括從點到面的推理框架側優化技術,把數學最優實現變為物理最優的FlashComm通算優化技術,把串行計算變成四流并發的通算極致掩蓋技術,以加法代乘法昇騰MLA最優實現,硬件感知親和的大量創新算子等一系列核心技術孕育而生,并將通過一連串的技術報告首次全面披露這些寶貴的技術細節。

這次昇騰超大規模MoE模型推理部署技術的揭秘,除了通過技術報告分享昇騰在超大規模MoE模型的推理部署技術之外,在近一個月的時間內,這些核心技術的相關代碼也都會陸續開源出來。在與業界分享技術思路的同時,也通過開源的方式共同打造長期持續的開放協作生態環境,讓昇騰親和的技術能力通過這些開源項目真正的活躍起來,這體現出華為堅定建設開放生態的決心,讓所有愿意嘗試使用昇騰能力的專家有信心長期投入,也讓所有積極參與貢獻的開發者有信心持續耕耘,一起努力讓昇騰生態在中國茁壯成長。

超大MoE大模型推理的挑戰

擁有6710億參數,采用混合專家架構,在各種榜單表現出色的DeepSeek V3某種程度上代表了大模型發展的一個新趨勢,即基于軟硬件協同優化的模型架構,能夠最大性能的發揮硬件平臺的能力,在多種任務中表現出色,包括自然語言理解、代碼生成和數學推理。我們暫且把DeepSeek V3為代表的大模型統稱為超大MoE類模型。


盡管在性能上表現出色,并且有著大量開源的模型權重以及很多的包括DeepEP等在內的工具類項目,但對于想使用這類大模型的企業來說,能夠高效部署完整版本的超大MoE類模型目前依舊面臨多重挑戰:

首先,硬件部署規模要求更高。現在我們在和大模型進行交互聊天的時候,無時無刻不在使用大模型的推理。而由于其自身的尺寸規模,這不再是此前小尺寸模型在單機多卡甚至單機單卡就可以運行能夠相比的。硬件集群逐漸成為“滿血版”超大MoE類模型的標配。

其次,模型規模龐大對推理效率提出了高要求。龐大的專家數量給硬件內存使用效率提出了很大挑戰,每個專家權重約44MB,而共有58個MoE層14906個專家的超大MoE類模型,對于一般的AI硬件來說,需要合理的分布式并行和通信策略設計,才能將如此大量的專家有效的跑在硬件集群上。

再次,超大MoE類模型的諸多架構創新,也帶來了很多實際部署上的困難。比如其多頭隱式注意力機制(MLA - Multi Head Latent Attention),雖然可以通過將原有的注意力機制的鍵值對通過一個投影矩陣壓縮到一個較小的隱式向量空間中,但這種創新也為算子優化帶來了新的挑戰,比如其帶來了中間變量膨脹且向量計算占比顯著增加,這樣給硬件對計算的加速提出了新的要求

華為的解法

為了解決如上提到的實際部署中遇到的問題,從模型和算子兩個方面入手,基于昇騰硬件和組網方式,團隊提出了多個親和的優化策略,開發出了一整套面向集群的大規模專家并行的解決方案。

昇騰服務器有多種配置和型號,團隊針對:

? CloudMatrix 384超節點 ? Atlas 800I A2推理服務器

兩種典型機型進行部署。為了解耦prefill階段的首token時延約束和decode階段的解碼時延約束,采用了PD分離部署的方式。在框架側,團隊基于vLLM框架,為了適配昇騰服務器,針對DP和EP并行策略做了相應適配,在調度和KV傳輸方面分別采用了Prefill調度分桶和靈衢互聯與分層傳輸的技術來降低調度開銷,在請求下發、調度策略、系統建鏈和框架前后處理方面做了性能優化,以實現整個系統的最優性能。模型方面,采用了A8W8C16的量化策略,其中A8W8采用INT8的數據類型,C16采用BF16的數據類型進行量化。在具體部署方面,由于兩種機型的定位和配置(尤其是網絡配置)存在較大差異,所以具體部署方案也不盡相同。


針對 CloudMatrix 384 超節點,其特殊的組網方式使其具有很高的通信帶寬。按照 DeepSeek的論文所述,Decode 部分是嚴重的通信瓶頸,在 Micro-batch 技術的加持下,幾乎可以做到通信掩蓋其他所有計算類操作。而 CloudMatrix 384 的獨特組網使得通信耗時大幅降低,可以有效釋放昇騰芯片的算力。因此,針對超節點我們采用大規模 EP 并行的方式來部署:Prefill 使用 16 卡,Decode 使用 144 卡。其中 Decode 部分使用 128 卡通過大規模 EP 的方式部署路由專家,16 卡通過 DP 的方式部署共享專家,MLA 部分使用 DP 的方式進行部署。按照理論分析,超節點可以獲得非常高的理論吞吐。實際場景下,由于各種因素的影響,包括 Decode 時延的約束使得各部分耗時未能達到理想的線性度,帶寬搶占帶來一部分性能劣化,框架的耗時和調度開銷帶來了額外的時延增加,MLA 部分的序列負載均衡和 MoE 部分的專家負載均衡帶來進一步的性能惡化;最后多種因素綜合在一起,華為團隊實現在保證 50ms 時延下單卡 Decode 吞吐達到 1920 Tokens/s。


針對 Atlas 800I A2 服務器,由于每個節點包含 8 張昇騰芯片,我們需要采用多節點互聯的方式來進行部署。綜合考慮模型吞吐和部署靈活性,我們選定使用 2 節點 16 卡作為一個Prefill 實例,4 節點 32 卡作為一個 Decode 實例。為了部署時盡可能靈活,這里選用的卡數較少,這使得整個系統采用較小規模的 EP 并行策略:每張卡上部署 8(Decode)/16(Prefill)個路由專家和 1 個共享專家。在 Decode 階段,MLA 部分采用 DP 并行策略,通信方式采用AllGather/ReduceScatter 方案。這種部署方式可以在卡數較少的情況下依然達到相當可觀的吞吐。值得一提的是,在真實負載下, AllGather/ReduceScatter 通信方案比 Dispatch/Combine 通信方案具有更好的性能表現。綜合上述優化方案,我們實現了在 100ms 時延下單卡吞吐達到 723~808Tokens/s。


推理框架側優化技術

1. API Server擴展技術

團隊提出了API Server擴展技術,通過支持API Server水平擴容策略,可以有效提升框架請求處理能力,降低用戶請求延遲,提高系統吞吐量(QPS)。結合包括組網方案優化和全并行、全異步前后處理,可進一步實現最佳TTFT,提升推理服務的可用性與處理效率

2. MoE模型負載均衡

團隊提出了一種高效的負載均衡策略,通過動態負載均衡,熱專家冗余部署,實時調度和動態監控等核心技術,顯著提升MoE模型推理性能。

FusionSpec推理投機加速技術

在實際應用中,投機推理技術更多聚焦于小批量(batch)低時延場景,如何將其高效應用于高吞吐量場景并實現性能收益最大化,成為當前亟待攻克的技術難題。

投機推理在模型解碼階段的高計算密度,天然匹配昇騰高計算帶寬比的特點。為了能夠充分發揮昇騰算力大的優勢,在低時延大并發場景下實現高吞吐,團隊提出了投機推理引擎FusionSpec深度優化MTP在昇騰上的推理性能:

●流程拼接:在推理流程上,將投機模型置于主體模型之后,直接使用主體模型的輸出,并復用主體的控制參數,大幅減少了框架耗時,適配PD分離的部署場景。 ●輕量步間準備:在投機場景中針對框架與算子優化,實現了輕量步間準備,適配多核并行全異步框架,降低端到端時延。

模型側性能優化技術

1. 模型側通信優化

●FlashComm:主流張量并行(TP) 中使用AllReduce進行通信的方案存在通信次數多,通信數據量大等問題,且AllReduce之后的殘差連接和歸一化計算存在計算冗余,沒有充分利用多卡并行能力。為此團隊提出了FlashComm網絡通信方案:在 Prefill 階段針對DeepSeek V3 網絡 MLA 層前后的 AllReduce 通信,基于相同的集合通信邏輯將張量并行中的AllReduce通信算子進行替換,并對通信算子在網絡中位置進行編排,實現了低比特和低維度數據通信,從而有效降低了通信數據量和通信時延,并消除了網絡中存在的冗余計算。FlashComm 技術應用于 DeepSeek V3 模型 Prefill 階段,降低 25% 的通信量,提升 10%的推理性能。 ●層內并行轉換技術:在FlashComm的基礎上,為進一步優化通信算子的時延,團隊提出層內并行轉換的優化方案:針對Prefill階段網絡MLA層的節點內通信重新設計了單層內使用的并行策略,靈活做到張量并行(TP)與數據并行(DP)的轉化,消除節點內卡間求和的需求,且充分利用網絡中低數據維度和量化特性實現節點間通信量的大幅降低,從而顯著優化了通信時延。這一技術術應用于 DeepSeek V3/R1 模型 Prefill 階段,降低 71%的節點內通信量,提升 10% 以上的推理性能。

2. 模型側并發優化

●計算通信并發:昇騰芯片提供了計算和通信的并發機制。MoE層的計算過程中需要使用AllGather匯聚各張卡上的Token的特征進行激活專家的篩選和計算。方案中,對于Gating函數使用先計算后通信的方法,對共享專家使用DP部署,從而保證了Gate函數的計算和通信、共享專家的計算,以及特征匯聚的AllGather 函數之間沒有依賴關系。團隊利用昇騰的多流機制,將這三部分進行并發處理,從而最大化推理模型的性能。此技術在 DeepSeekV3模型的大并發場景下可以實現 Decode 性能提升 15%。 ●通信通信并發:昇騰芯片也提供了通信和通信并發的機制。當通信帶寬利用率比較低的時候,可以把兩個通信算子并發起來以掩蓋通信算子的啟動開銷,同時提高通信帶寬的利用率。DeepSeekV3模型在進行AllGather等通信時,可以將Norm算子和量化算子移到AllGather通信的前面,從而降低通信的數據量,進而提高通信的效率。但是由于量化算子的前移,需分別通信量化后的激活值和scale,進而增大了通信算子啟動開銷。由于量化scale的數據量較小,對帶寬的占用較低,因此團隊采用通信通信并發的機制,將通信激活值和通信量化scale并發起來,在不增加激活值通信開銷的前提下,掩蓋掉量化scale的通信代價。 ● 通信和權重預取的并發:昇騰芯片提供了緩存機制,算子在進行計算時,會優先從緩存中尋找數據,如果命中,則直接從緩存中讀取數據,否則從HBM中讀取數據,而緩存的帶寬是HBM帶寬的數倍。由于通信算子進行過程中HBM帶寬占用率較低,在通信算子進行過程中可以將后續算子需要的權重提前預取到緩存中,從而降低后續算子計算過程中的權重搬運開銷。同時昇騰芯片支持靈活限定預取帶寬,因此在通信過程中預取對通信性能影響很小。對于DeepSeek模型,在MoE模塊末尾的ReduceScatter預取MLA中權重矩陣和KV cache,可以提升MLA部分約10%計算性能。


昇騰親和的創新算子

1. MLA算子優化

Attention算子:MLA相較于傳統的Attention算子(如MHA, GQA類顯著帶寬瓶頸的算子),由于其中間變量膨脹且計算量顯著增加,為算子優化帶來了新的挑戰。針對昇騰處理器的架構特性,團隊對MLA場景的FA算子進行了算法重構以及硬件親和的性能優化。

?提出AMLA(Ascend MLA)算法,通過二進制編碼解析及存內計算,實現乘性計算的加性等價轉換,從而實現直接在Global Memory上更新O的步驟,無須進入Vector core,大幅降低中間變量的重復搬運。 ?對L1緩存進行了細致規劃,盡可能地減少數據重復搬入搬出的過程。 ?在工程實現方面,通過優化計算流程提高L2 cache命中率,并且利用K-buffer流水排布等策略,實現Cube計算和Vector計算互相掩蓋,提高了算子整體性能。

上述優化方案提升 Attention 算子性能接近 1 倍,非 MTP 場景算力利用率達到 55%,使用一個 MTP 模塊場景算力利用率達到 60%。

MLA前序算子:針對復雜的MLA前序算子,分別在Prefill階段和Decode階段采取了不同的優化策略:

?在Prefill階段,通過雙流并發等技術實現了流水掩蓋,同時增加了FA算子對多種輸入輸出模式的支持以消除純訪存類冗余算子。 ?在Decode階段,團隊采用權重吸收,同時將前序算子深度融合為MLAProlog算子,并且針對昇騰硬件架構進行了全方位的深度優化。

具體優化措施包括:采用權重預取減少流水線空泡;基于最小化搬運以及最大化帶寬的tiling策略;通過計算解耦降低指令依賴與等待;利用局部計算融合消除全核同步開銷;運用昇騰定制指令集實現ICache壓縮,規避issue queue阻塞風險等。

通過上述優化方案,MLAProlog 算子性能提升 30%以上。

2. MOE算子優化

Dispatch/Combine通算融合算子:在EP部署模式中,MoE中的專家分布在較大的通信域的各個卡上,每個Token需要分發到對應的卡上進行計算,原始的實現方式使用InitialRouting根據專家排序對所有Token進行重排,再用AllToAll以及AllToAllv通信算子進行交換token。該實現方式在通信域比較大的場景下,存在通信次數多、卡間同步開銷嚴重等問題,阻礙了整網端到端時延的提升。因此團隊提出MoeDistributeDispatch和MoeDistributeCombine兩個通算融合算子技術:將計算和傳輸拆解為Token粒度的計算單位,通過流水排布實現通信和計算的并行執行;同時利用內存語義的通信技術直接向不同卡上的共享內存傳輸數據,從而減少了本地拷貝和等待數據的開銷;團隊還通過本地內存篩選和拷貝的機制,減少了數據傳輸次數和卡間同步開銷。

SMTurbo-CPP算子:針對MOE層大通信域場景下,小數據量傳輸效率低的問題,團隊提出SMTurbo-Concurrent Push and Pull(SMTurbo-CPP)技術:在內存語義級別對通信算子AllToAll(v)進行優化,充分利用硬件并發能力,使用讀寫混合、聚合流水、批量檢測等技術,提升了線程的訪存效率與吞吐,顯著降低Dispatch和Combine場景通信算子的時延。

細粒度分級流水算法:基于Atlas A2系列產品,HCCL支持細粒度的分級流水算法,可大幅提升集群中Allgather、ReduceScatter、AlltoAll等集合通信算子的執行效率。該算法利用A2組網的特性,實現了節點內/節點間的并發執行,以提高帶寬利用率。

在2025年4月,硅基流動聯合華為云基于CloudMatrix 384超節點昇騰云服務和高性能推理框架SiliconLLM,用大規模專家并行最佳實踐正式上線DeepSeek-R1。該服務在保證單用戶20 TPS水平前提下,單卡Decode吞吐突破1920 Tokens/s,可比肩H100部署性能。同時,經過主流測試集驗證及大規模線上盲測,在昇騰算力部署DeepSeek-R1的模型精度與DeepSeek官方保持一致。


在大模型產業加速落地的關鍵節點,華為玩了波“硬核操作“—— 用“數學補物理的創新思路”硬剛硬件瓶頸,拿通算融合玩轉集群調度,靠算子重構榨干芯片性能。這場全鏈路技術優化不僅實現了超大規模模型在國產硬件上的高效部署,更以開源共享的姿態激活了本土 AI 生態的協同創新活力。

本內容為作者獨立觀點,不代表虎嗅立場。未經允許不得轉載,授權事宜請聯系 hezuo@huxiu.com

本文來自虎嗅,原文鏈接:https://www.huxiu.com/article/4367996.html?f=wyxwapp

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
關于八國聯軍的三大謊言:曾家喻戶曉,很多人信以為真,其實是假

關于八國聯軍的三大謊言:曾家喻戶曉,很多人信以為真,其實是假

詩意世界
2025-06-08 23:40:44
梁朝偉和湯唯在《色戒》里“假戲真做”?網友爆出截圖:一目了然

梁朝偉和湯唯在《色戒》里“假戲真做”?網友爆出截圖:一目了然

姜糖先生
2025-06-08 19:31:00
伊發動第4波導彈襲擊: 哈梅內伊誓言摧毀以色列,F-35殘骸照曝光

伊發動第4波導彈襲擊: 哈梅內伊誓言摧毀以色列,F-35殘骸照曝光

科技生活快訊
2025-06-14 11:50:08
市紀委書記現場督導酒醉駕夜查工作:有沒有干部耍特權?

市紀委書記現場督導酒醉駕夜查工作:有沒有干部耍特權?

新京報政事兒
2025-06-14 14:07:14
繼韓國越南之后,巴基斯坦也貼出中文標語,句句戳中國游客的心

繼韓國越南之后,巴基斯坦也貼出中文標語,句句戳中國游客的心

侃侃兒談
2025-05-05 09:49:14
關于艾滋病,這些知識你一定要知道!

關于艾滋病,這些知識你一定要知道!

甘孜傳媒
2025-06-11 20:49:18
父子“共用”一張臉!韋東奕父子早年合照曝光,韋爸牙齒同樣缺失

父子“共用”一張臉!韋東奕父子早年合照曝光,韋爸牙齒同樣缺失

面包夾知識
2025-06-11 17:45:03
網盤中的加密文件,二十年后依然回味無窮

網盤中的加密文件,二十年后依然回味無窮

街機時代
2025-04-27 16:10:02
江蘇揚州6名黃牛霸機搶購labubu毆打勸阻者,警方介入,商場回應:機器線路被打壞

江蘇揚州6名黃牛霸機搶購labubu毆打勸阻者,警方介入,商場回應:機器線路被打壞

大風新聞
2025-06-13 18:29:12
“就為了這兩碟醋包的餃子”,那爾那茜媽媽身份流出,這下真涼了

“就為了這兩碟醋包的餃子”,那爾那茜媽媽身份流出,這下真涼了

知曉科普
2025-06-12 16:54:32
江蘇“國補”采用限額分配,各平臺領取功能將陸續重新上線

江蘇“國補”采用限額分配,各平臺領取功能將陸續重新上線

現代快報
2025-06-14 09:01:12
美媒發現不對勁,除了稀土外,中國手中還有一張王牌沒用

美媒發現不對勁,除了稀土外,中國手中還有一張王牌沒用

科技處長
2025-06-07 10:52:35
官媒新華網點贊,雷軍安全過關!小米創中國汽車新紀錄

官媒新華網點贊,雷軍安全過關!小米創中國汽車新紀錄

象視汽車
2025-06-14 07:00:03
巨額補貼的公共自行車,早就該退場了

巨額補貼的公共自行車,早就該退場了

冰川思想庫
2025-06-13 12:13:49
上海中考作文題:幫助人,使達到目的!上海中考增至12.7萬人

上海中考作文題:幫助人,使達到目的!上海中考增至12.7萬人

大樹成長營
2025-06-14 10:55:11
舅媽出軌被外甥意外撞破,外甥答應隱瞞,提出的條件卻讓她......

舅媽出軌被外甥意外撞破,外甥答應隱瞞,提出的條件卻讓她......

歷史八卦社
2025-06-10 23:45:11
臺網紅“館長”直播游上海,吸引逾43萬人同看破臺灣紀錄,臺媒:戳破綠營謊言

臺網紅“館長”直播游上海,吸引逾43萬人同看破臺灣紀錄,臺媒:戳破綠營謊言

環球網資訊
2025-06-14 07:05:33
兩次簽證申請遭美國拒絕,一阿根廷球員無法入境參加世俱杯

兩次簽證申請遭美國拒絕,一阿根廷球員無法入境參加世俱杯

全景體育V
2025-06-13 16:23:35
濕氣最怕的4道菜,天熱要多吃,濕氣沒了脾胃好,一覺睡到自然醒

濕氣最怕的4道菜,天熱要多吃,濕氣沒了脾胃好,一覺睡到自然醒

秀廚娘
2025-06-14 12:30:25
非常明顯!斯盧茨基已把目光瞄準下場足協杯與上海海港的德比大戰

非常明顯!斯盧茨基已把目光瞄準下場足協杯與上海海港的德比大戰

煙潯渺渺
2025-06-14 14:02:51
2025-06-14 16:00:49
虎嗅APP incentive-icons
虎嗅APP
個性化商業資訊與觀點交流平臺
24285文章數 686313關注度
往期回顧 全部

科技要聞

一輛新車比特斯拉FSD都便宜,全行業陪葬?

頭條要聞

伊朗出手15分鐘內3次導彈齊射 被指計劃打擊美軍基地

頭條要聞

伊朗出手15分鐘內3次導彈齊射 被指計劃打擊美軍基地

體育要聞

32隊爭10億獎金,全新世俱杯來了!

娛樂要聞

鳳凰傳奇曾毅手表引爭議 含性暗示元素

財經要聞

樓市權威發聲

汽車要聞

長城為了拿環塔冠軍有多拼?魏建軍在下一盤大棋!

態度原創

本地
房產
數碼
教育
公開課

本地新聞

最近的打工人,都在熬夜看這劇逐幀學習職場小技巧

房產要聞

又一城購房補貼!買房就發錢,正在海南樓市瘋狂擴散!

數碼要聞

蘋果現正銷售翻新的 M4 MacBook Air 機型

教育要聞

小學數學競賽題,班級上一半以上的同學不會做

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 特黄做受又硬又粗又大视频小说| 51久久夜色精品国产水果派解说| 欧美激情内射喷水高潮| 亚洲免费观看视频| 美女又黄又免费的视频| 国产精品综合色区小说| 巨爆乳无码视频在线观看| 久久亚洲精品中文字幕| 欧美日韩一区二区三区在线观看视频| 浮妇高潮喷白浆视频| 欧美大香线蕉线伊人久久| 大桥未久亚洲无av码在线| 久久天天躁狠狠躁夜夜爽| 96亚洲精华国产精华精华液| 日韩av一国产av一中文字慕| 国产大屁股视频免费区| 国精产品一区二区三区| 国产精品亚洲精品日韩已满十八小| 99久久无色码中文字幕人妻蜜柚| 国产乱子伦一区二区三区| 国模丽丽啪啪一区二区| 亚洲精品久久夜色撩人男男小说| 久久99亚洲含羞草影院| 欧美性狂猛xxxxx| 无码人妻精品一区二区三区久久| 看全黄大色黄大片美女| 麻豆人妻无码性色av专区| 性一交一黄一片| 久久国产劲爆∧v内射| 欧美大成色www永久网站婷| 国产精品9999久久久久| 日韩精品人妻系列无码专区免费| 日本爽爽爽爽爽爽在线观看免| 国内精品久久久久久久影视麻豆| 亚洲a片成人无码久久精品色欲| 国产精品亚洲精品日韩已满| 成人天堂资源www在线| 欧美激情肉欲高潮视频| 成人性生交大片免费看r老牛网站| 日韩a片无码一区二区三区电影| 四虎永久在线精品免费一区二区|