網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

KDD'25 | 生成式拍賣：感知排列外部性的整頁優(yōu)化機制

2024-12-28 22:01:41　來源: 量子位

北京舉報

分享至

從“先預估后分配”的判別式方法，到直接面向最終拍賣結(jié)果的生成式方法，生成式模型能否為在線廣告的拍賣機制優(yōu)化帶來持續(xù)增量？

本文介紹阿里媽媽展示廣告機制策略團隊在 AIGA（AI-Generated Auction）方向的前沿探索-生成式拍賣研究工作。

基于該項工作整理的論文已被KDD’25 Research Track接收。

摘要

廣告拍賣機制設計作為在線廣告系統(tǒng)的重要一環(huán)，在持續(xù)優(yōu)化廣告主和平臺收益方面起著至關(guān)重要的作用。傳統(tǒng)的廣義二價拍賣（GSP）等拍賣機制依賴于點擊率分離假設（將廣告點擊率拆分為廣告自身質(zhì)量分和廣告位曝光權(quán)重的乘積），忽略了頁面中同時展示的其它商品的影響，即外部性影響。

近年來，基于深度學習的拍賣機制顯著增強了對高維上下文特征的編碼能力，但是現(xiàn)有方法仍受限于“先預估后分配”的設計范式。這種范式只能建模參競廣告集合內(nèi)的外部性，無法捕捉最終分配結(jié)果的整頁上下文信息（即排列外部性），因此難以收斂到全局最優(yōu)解。本文系統(tǒng)分析了在排列外部性影響下的最優(yōu)拍賣機制，在理論最優(yōu)解的基礎(chǔ)上，研究團隊提出了首個使用生成式模型建模排列外部性的廣告拍賣機制-生成式拍賣（Contextual Generative Auction, CGA）。

該框架通過自回歸模型生成廣告分配結(jié)果，并將激勵兼容（Incentive Compatibility, IC）條件量化為最小化事后后悔（ex-post regret），實現(xiàn)端到端學習最優(yōu)計費規(guī)則。大規(guī)模離線實驗和在線 A/B 實驗表明 CGA 能顯著提升平臺收入等關(guān)鍵指標，同時有效逼近理論最優(yōu)拍賣的結(jié)果。

論文：Contextual Generative Auction with Permutation-level Externalities for Online Advertising
作者：Ruitao Zhu, Yangsu Liu, Dagui Chen, Zhenjia Ma, Chufeng Shi, Zhenzhe Zheng, Jie Zhang, Jian Xu, Bo Zheng, Fan Wu
下載：https://arxiv.org/abs/2412.11544

引言

在線廣告系統(tǒng)的最優(yōu)拍賣機制旨在最大化平臺期望收入，同時滿足經(jīng)濟學性質(zhì)，包括激勵兼容和個體理性（Individual Rationality, IR），并且需要滿足系統(tǒng)在線部署的計算時延要求。IC 條件要求廣告主真實報價最大化其自身效用，IR條件要求廣告主的效用非負。

在典型的點擊計費（Cost-per-Click, CPC）多坑廣告場景下，廣告拍賣機制的效果依賴于對廣告點擊率（CTR）的預估準度。廣泛使用的 GSP 等機制使用精排階段的單點預估 CTR，忽略了頁面展示的其它商品的影響。而實際場景中，用戶瀏覽的頁面包括多個商品，用戶在決策前通常會對不同商品進行比較，因此同時曝光的其它商品會對目標廣告的 CTR 產(chǎn)生影響，稱為“外部性” [1]。

基于深度學習的拍賣機制，如 Deep Neural Auction（DNA [2]）和 Score Weighted VCG（SW-VCG [3]）等工作考慮使用深度網(wǎng)絡刻畫外部性影響以提升平臺收入。然而無論是 DNA 采用的先預估廣告 rankscore 再進行排序，還是 SW-VCG 使用的先預估單調(diào)性分數(shù)再求解二部圖最大匹配，這些方法本質(zhì)上都受到“先預估后分配”（allocation-after-prediction）范式的局限，預估時的上下文信息與分配后的最終上下文信息不一致，因此模型只能捕捉到粗粒度的廣告候選集層面的外部性。另一方面，Neural Multi-slot Auction（NMA [4]）等機制采用類似 VCG 拍賣的方式，遍歷所有可能的排列結(jié)果以求解最優(yōu)分配，但是極高的計算復雜度使其難以應用于在線場景。

根據(jù) Myerson 拍賣理論 [5]，拍賣機制的 IC 條件要求廣告主獲得的期望價值關(guān)于其出價滿足非遞減關(guān)系。大多數(shù)現(xiàn)有方法通過保證排序公式中出價的權(quán)重為正，使得廣告主提高出價能獲得相同或更前置的廣告位。但是在排列外部性的影響下，即使廣告候選集保持不變，將廣告分配到的坑位前置反而可能導致其期望價值下降。圖 1 給出了不同廣告的分坑位 [點擊率 * 曝光率]（表示 CPC 機制下的廣告主期望價值）的實驗數(shù)據(jù)，二者的關(guān)系并不滿足單調(diào)性。因此，在排列外部性影響下，如何設計滿足激勵兼容條件的分配規(guī)則是一個非平凡的問題。

△圖1：廣告分坑位 [點擊率 * 曝光率]

本文旨在探索在排列外部性影響下，滿足 IC 和 IR 約束的收入最大化廣告拍賣機制的基本形式和高效實現(xiàn)。我們首先給出系統(tǒng)性的理論分析，證明最優(yōu)解保留 Myerson 最優(yōu)拍賣的基本形式，即分配規(guī)則和計費規(guī)則可以進行解耦。在理論最優(yōu)解的基礎(chǔ)上，引入經(jīng)典的生成器-評估器（Generator-Evaluator）架構(gòu)，構(gòu)建感知排列外部性的生成式拍賣。最后，進行工業(yè)數(shù)據(jù)集上的離在線實驗，在多維度指標上對比現(xiàn)有的拍賣機制研究工作。

問題建模與理論分析

在線廣告場景可以抽象成一個典型的多坑拍賣問題。對于每條用戶請求，由

個廣告主（可以是手動調(diào)整出價或者自動出價代理）對個廣告位進行出價。廣告主根據(jù)自身的私有估值提交出價 , 其中服從價值分布。給定出價向量, 用戶特征向量以及所有參競廣告的特征向量，平臺的拍賣機制決定分配方案以及廣告主的計費，其中表示廣告分配到廣告位

廣告拍賣中的外部性指的是競勝廣告主的效用會受到其它競勝廣告的影響 [1]。對于 CPC 多坑拍賣，外部性影響主要反映在廣告 CTR 上。我們用

表示任意感知排列外部性的 CTR 模型，廣告的 CTR 可以表示為，可以簡化表示為

在上述排列外部性的拍賣機制建模下，廣告主

的期望效用為

拍賣機制的激勵兼容（IC）條件要求真實報價

最大化其期望效用

，個體理性（IR）條件則要求廣告主效用非負。廣告拍賣機制目標為最大化平臺期望收入

且滿足IC和IR約束。

求解收入最大化機制的直觀想法是遵循經(jīng)典的 Myerson 拍賣，我們將排列外部性引入 Myerson 拍賣，可以寫成如下形式，其中

表示經(jīng)過 iron 操作后的虛擬價值函數(shù)（確保函數(shù)單調(diào)性）：

分配規(guī)則：

計費規(guī)則：

需要注意的是，由于排列外部性的引入，在最終分配結(jié)果中其它廣告的影響下，廣告主提高出價不一定會提高最終的 CTR，因此 Myerson 理論中的“單調(diào)分配”性質(zhì)在排列外部性影響下是否成立需要重新論證。我們理論證明了上述“單調(diào)分配”的性質(zhì)仍然保持，具體表述為如下引理 1，完整證明請參考論文原文附錄 A.1。

引理1:在排列外部性建模下，若拍賣機制的分配規(guī)則

最大化期望虛擬福利，則對于任意廣告主以及其它廣告主的出價向量，關(guān)于出價單調(diào)不減，或者稱分配規(guī)則

為單調(diào)的。

結(jié)合引理 1 和 Myerson 拍賣理論，可以證明上述引入排列外部性的 Myerson 拍賣為滿足IC、IR約束且最大化平臺期望收入的最優(yōu)拍賣機制，完整推導過程請參考論文原文 2.2 節(jié)。

直接求解上述最優(yōu)分配結(jié)果需要枚舉參競廣告的所有可能排列結(jié)果，再進行選優(yōu)，枚舉過程的計算復雜度為

，線上場景下,，枚舉過程的高復雜度無法滿足線上推理實驗要求。因此我們考慮將拍賣機制進行參數(shù)化，通過數(shù)據(jù)驅(qū)動的方式進行學習。為了在端到端學習的過程中滿足 IC 約束并保持優(yōu)化過程的可微性，類似多物品拍賣的研究工作 RegretNet [6]，我們將機制偏離 IC 條件的程度量化為每個廣告主的 ex-post regret，即廣告主通過虛報出價

可以獲得的最大效用增加值：

給定價值分布

中的條采樣，則廣告主

的經(jīng)驗 ex-post regret 為

拍賣機制設計問題可以進一步改寫成如下約束優(yōu)化問題：

生成式拍賣

前文提到，現(xiàn)有的基于深度學習的拍賣機制受限于“先預估后分配”的設計范式，無法感知排列級外部性。我們提出的生成式拍賣引入了生成器-評估器的基本架構(gòu)，模型整體架構(gòu)如圖 2 所示。生成器采用自回歸模型，逐坑位感知已經(jīng)決策完成的序列信息，生成廣告序列。評估器捕捉廣告序列中的商品相互影響，對精排階段的單點 pCTR 結(jié)合序列上下文信息進行校準，在訓練時為生成器提供獎勵信號。在線推理時，僅部署生成器，以保證線上推理時延。此外，我們構(gòu)建了 PaymentNet 模塊，通過優(yōu)化 ex-post regret 學習最優(yōu)計費規(guī)則。

△圖2：感知排列外部性的生成式拍賣整體框架

1、生成器

根據(jù)理論推導的最優(yōu)分配形式，生成器的目標為根據(jù)

個參競廣告，生成長度為的廣告序列

，以最大化期望虛擬福利。我們構(gòu)建的生成器包括兩部分：滿足排列不變性（permutation-invariant）的集合編碼器，以及滿足排列同變性（permutation-equivariant）的自回歸解碼器。排列不變性指的是改變模型輸入元素的排列順序不會改變模型輸出的結(jié)果，排列同變性指的是輸入元素的排列順序改變會引起輸出結(jié)果的排列順序產(chǎn)生相同的改變。前者保證輸入模型的參競廣告順序不影響分配結(jié)果，后者在自動機制設計 [7-9] 的研究工作中廣泛應用，[10] 進一步論證了排列同變性可以提升機制的泛化性。

集合編碼器旨在通過建模參競集合粒度的外部性來增強每個廣告的表征。編碼器首先通過 self-attention layer 編碼廣告 embedding 序列：

再經(jīng)過 sum-pooling 層和 MLP 層得到集合粒度上下文編碼：

解碼器使用自回歸模型建模長度為

的廣告序列的聯(lián)合概率分布：

我們使用 GRU 單元建模參競廣告在坑位的條件概率：，第

個 GRU 單元迭代式地定義為：

其中

為可學習的參數(shù)，始終非負，確保更高的虛擬價值獲得更大的分配概率，與最大化虛擬福利的目標保持一致。我們接下來對在坑位之前分配的廣告進行 mask 操作，并基于概率進行采樣以決策分配到當前坑位的廣告。重復次采樣過程，得到長度為

的廣告序列即為最終分配結(jié)果。注意到生成器中的 MLP 和 GRU 單元作用在每個 state-ad 對，且編碼器滿足排列不變性，因此解碼器滿足排列同變性。

2、評估器

評估器的目標為預估分配結(jié)果

中每個廣告的 CTR ，進一步在訓練過程中為生成器提供獎勵信號。為了復用精排階段從用戶行為序列中提取的用戶興趣信息，避免冗余建模，評估器在精排單點 pCTR的基礎(chǔ)上，預估排列外部性校準向量，再將二者進行逐元素相乘得到最終預估的 CTR：

。模型結(jié)構(gòu)上同時引入了雙向 LSTM 和 self-attention 模塊提取序列上下文信息，最終將聚合用戶 embedding 后的表征送入 MLP 層得到外部性校準向量：

具體實現(xiàn)細節(jié)請參考論文原文。

3、計費模塊

注意到第 2 節(jié)中理論推導的最優(yōu)計費規(guī)則包括積分項

通過蒙特卡洛采樣近似計算積分時，每次采樣都需要調(diào)用生成器

和評估器，在實時推理時的計算開銷過大。在前文中，我們將 IC 條件改寫為每個廣告主的經(jīng)驗 ex-post regret 等于 0，這使得我們可以通過數(shù)據(jù)驅(qū)動的方式構(gòu)建計費模塊學習上述最優(yōu)計費規(guī)則。計費模塊輸入包括廣告分配序列的表征，出價矩陣，以及期望價值向量，其中表示生成器輸出的廣告分配概率，表示評估器輸出的外部性校準后的 CTR。為了滿足 IR 條件，計費模型通過 sigmoid 激活函數(shù)輸出計費比

，再與出價相乘得到最終計費

4、訓練流程

根據(jù)第 2 節(jié)中推導的結(jié)論，最優(yōu)分配最大化虛擬福利，與計費規(guī)則無關(guān)，因此我們在訓練時將基于生成器-評估器架構(gòu)的分配求解模塊與計費模塊的優(yōu)化進行解耦。

我們首先使用列表級的廣告點擊數(shù)據(jù)訓練評估器，交叉熵損失函數(shù)定義為：

其中

表示用戶是否點擊列表中的第個廣告，

表示評估器的外部性校準后的預估 CTR。

在評估器訓練收斂后，我們凍結(jié)其參數(shù)，指導生成器訓練。類似推薦系統(tǒng)重排工作 GRN [11] 的損失函數(shù)設計思路，我們將獎勵函數(shù)拆解為兩部分。Self-Reward 直接刻畫每個分配的廣告帶來的虛擬福利增量，即

External-Reward 刻畫每個分配的廣告帶來的外部性影響，即

類似 VCG 拍賣中的邊際貢獻的概念。二者相加即可得到分配廣告

的整體獎勵函數(shù)：

其中

表示排除廣告

后的廣告序列。最后，我們使用 Policy Gradient 定義生成器的損失函數(shù)為：

在生成器-評估器架構(gòu)訓練收斂后，我們凍結(jié)其參數(shù)，使用增廣拉格朗日方法求解第 2 節(jié)最后定義的約束優(yōu)化問題以優(yōu)化計費模塊，對違反 IC 條件施加懲罰項，增廣拉格朗日函數(shù)定義為：

計費模塊的優(yōu)化過程包括以下兩個過程的迭代：

（1）更新計費模塊的參數(shù)

（2）更新拉格朗日乘子

實驗

我們在淘寶展示廣告場景的真實數(shù)據(jù)集上以及線上環(huán)境中評估生成式拍賣的有效性。對比的基線方法按照外部性建模的粒度可以分為三類：

無外部性建模：GSP 廣義二價拍賣。
集合粒度外部性建模：DNA [2]；SW-VCG [3]。
排列級外部性建模：基于枚舉實現(xiàn)的 VCG 拍賣；EdgeNet [12]；理論推導的最優(yōu)拍賣機制。

1、離線實驗

離線實驗使用的訓練集和測試集分別包括不同日期隨機采樣的 50 萬條和 10 萬條拍賣日志，每次拍賣約有30個廣告參競。我們考慮廣告主出價的條件分布分別服從均勻分布（uniform）和指數(shù)分布（exponential），在兩種條件下分別進行評估。評估指標包括平臺收入指標 RPM（Revenue Per Mille），CTR 以及評估機制 IC 條件的指標

衡量廣告主通過非真實出價能夠獲得的效用相對增量。

實驗結(jié)果如表 1 所示。可以觀察到隨著外部性建模從不考慮外部性到集合粒度外部性，再到排列級外部性，三個指標均趨向更優(yōu)。此外，注意到與基于枚舉法實現(xiàn)的理論最優(yōu)上界相比，生成式拍賣（CGA）達到了95%的平臺收入以及極低的

值，表明生成式拍賣可以高效近似理論最優(yōu)機制。

△表1：離線對比實驗。指標后的百分比增減量表示基線方法相比 CGA 的相對值

2、在線實驗

我們在展示廣告場景進行了線上 A/B 實驗，基線為線上使用的 DNA [2] 機制。實驗結(jié)果表明，生成式拍賣在推理時延僅增加 1.6% 的情況下，平臺收入指標 RPM 提高了 3.2%，CTR 提升 1.4%，成交 GMV 提升6.4%，廣告主 ROI 提升 3.5%。實驗結(jié)果表明生成式拍賣帶來的收入提升不是由于直接抬高廣告主計費，而是通過感知排列級外部性優(yōu)化廣告分配，實現(xiàn)更精準的廣告觸達，反映于 CTR、GMV 以及廣告主 ROI 的提升。

總結(jié)

本文從廣告拍賣機制中的排列級外部性影響出發(fā)，打破“先預估后分配”的設計范式，針對在線廣告場景提出了感知排列外部性的生成式拍賣。結(jié)果表明，經(jīng)典的 Myerson 拍賣在遷移到排列級外部性的形式后，仍然保持其最優(yōu)性。

基于這一結(jié)論，團隊設計的生成式拍賣架構(gòu)將分配和計費模塊解耦。在具體實現(xiàn)上，構(gòu)建了基于生成器-評估器的自回歸生成式結(jié)構(gòu)來優(yōu)化分配，并將 IC 約束量化為最小化期望事后后悔來學習最優(yōu)支付規(guī)則。工業(yè)級場景的離在線實驗驗證了生成式拍賣的有效性。值得注意的是，提出的生成式拍賣框架并不局限于特定的生成式模型。

未來的研究工作將探索引入更加高效的生成式架構(gòu)，并在拍賣機制中統(tǒng)一分配來自多渠道的商品，例如自然結(jié)果與廣告的融合混排。

關(guān)于團隊

阿里媽媽展示廣告機制策略算法團隊，致力于不斷優(yōu)化阿里展示廣告技術(shù)體系，驅(qū)動業(yè)務增長，推動技術(shù)持續(xù)創(chuàng)新；不斷升級工程架構(gòu)以支撐阿里媽媽展示廣告業(yè)務穩(wěn)健&高效迭代，深挖商業(yè)化價值并優(yōu)化廣告主投放效果，孵化創(chuàng)新產(chǎn)品和創(chuàng)新商業(yè)化模式，優(yōu)化廣告生態(tài)健壯性；驅(qū)動機制升級，并已邁入 Deep Learning for Mechanisms 時代，團隊創(chuàng)新工作發(fā)表于 KDD、WWW、ICML、CIKM、WSDM、AAMAS、AAAI 等領(lǐng)域知名會議。在此真誠歡迎有ML背景的同學加入！

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.