KDD‘25 | 在线广告系统的智能算力资源回收框架

如表1 所示，从重复请求的时间间隔分布（当前请求与前次请求的间隔）来看，绝大多数请求呈现高频短周期特征：46%的重复请求间隔小于10秒，75%集中在2分钟内。基于淘宝平台的真实数据分析发现，大量用户在浏览完整系统返回的商品卡片时会发起大量重复请求，导致系统重复执行召回、粗排、精排等多阶段计算，但最终仅获得少量广告曝光，造成显著算力资源浪费。以未实施任何回收策略的原广告系统为基线，通过调节效率衰减阈

阿里妈妈技术

229人浏览 · 2025-08-06 19:00:23

阿里妈妈技术 · 2025-08-06 19:00:23 发布

摘要

作为支撑平台核心商业价值的关键基础设施，淘宝展示广告系统每日需处理数以亿计用户的高并发广告请求。系统推荐质量与资源利用效率直接影响平台营收与用户体验。基于淘宝平台的真实数据分析发现，大量用户在浏览完整系统返回的商品卡片时会发起大量重复请求，导致系统重复执行召回、粗排、精排等多阶段计算，但最终仅获得少量广告曝光，造成显著算力资源浪费。为此，我们提出了ComRecycle智能算力回收框架：通过缓存与复用召回、粗排、精排阶段的透出广告集合，在保障推荐效果的前提下实现算力资源的精细化调度，从而提升计算资源利用效率。我们将算力回收决策问题建模为在线约束优化问题，利用用户兴趣建模与拉格朗日对偶方法，使系统在保证推荐效果的前提下实现算力成本优化。我们通过大量离线模拟实验和在线实验，ComRecycle在淘宝展示广告场景中节省23% CPU与22% GPU资源，为大规模电商广告系统的可持续优化提供全新范式。本文已被国际会议KDD‘25 录取。

论文：ComRecycle: An Intelligent Computation Recycling Framework for Online Advertising

作者：Chufeng Shi, Yangsu Liu, Qiu Rui, Zhenzhe Zheng, Dagui Chen, Ruitao Zhu, Fan Wu, KDD'25

链接：https://dl.acm.org/doi/10.1145/3711896.3737205

引言

在线广告系统的效率可以简单归结为模型能力和算力资源叠加。尽管业界持续致力于提升模型预测能力以优化广告召回与预估模型的准确性与多样性，却鲜少关注复杂机器学习模型带来的增量算力与存储资源消耗之间的平衡关系。

淘宝信息流广告系统作为支撑平台核心商业价值的关键基础设施，每日需处理数以亿计用户的高频广告请求。基于线上数据分析，我们发现大量用户在一次浏览中会频繁发起重复请求（比如频繁刷新首页），但最终仅少量广告获得真实曝光。对每一次请求，系统都需重复执行完整的在线服务链路（召回、粗排、精排、重排等）以获取待展示的广告内容，显然造成了资源的浪费。此外，我们观察到系统为同用户连续两次请求后各个阶段透出的广告候选集存在显著重复，这表面请求之间的候选集存在较多的冗余。基于这些观察，我们开发了算力回收框架以提升资源利用率，其核心思路是缓存各个阶段具有潜在复用价值的未曝光广告，并在重复请求中复用缓存，从而达到回收算力资源的目标。

总体而言，本文设计了一套算力回收框架，在保障广告系统投放效率前提下提升资源利用率。我们设计了细粒度的算力回收策略，将在线算力回收决策问题建模为约束优化问题，在保持广告系统投放效率的同时最小化算力开销。通过效果损耗预估与拉格朗日乘子求解，实现最优的在线算力回收决策。

数据分析

3.1 基础数据分析

我们基于淘宝信息流场景进行的数据分析发现有 74%的广告请求属于重复请求（其定义为：若某请求在当日存在至少一次同用户历史请求，则判定为重复请求）。如表1 所示，从重复请求的时间间隔分布（当前请求与前次请求的间隔）来看，绝大多数请求呈现高频短周期特征：46%的重复请求间隔小于10秒，75%集中在2分钟内。这种高频刷新行为会引发两个关键问题：1. 在系统层面，持续的高频刷新直接导致QPS异常攀升，对在线系统造成巨大负载负担。2. 更重要的是暴露出严重的广告资源浪费以及场域推荐效率的快速下降。当用户执行高频刷新操作时，推荐广告的有效曝光率急剧下降。以10秒时间尺度为例，用户显然无法完成对返回广告内容的完整浏览。表2的用户平均广告曝光数据分析进一步验证了这一趋势：41%的请求未产生任何广告曝光，近70%的请求曝光量不足候选广告数量的一半。这表明系统推送的广告集合中有绝大多数的内容未被用户实际感知，导致大量计算资源被低效的重复请求所浪费。并且由于商品库深以及曝光频控等规则的约束，短时间内推送给用户的广告的质量也会逐渐下降。

表 1 重复请求的时间间隔数据统计

表 2 用户单次请求平均广告曝光

3.2 冗余性分析

针对低效重复请求引发的资源浪费问题，一个直观的解决方案是缓存复用未曝光广告，即缓存精排输出集合中未曝光的广告并复用于后续请求。该方法虽能显著降低资源消耗，但直接复用缓存广告结果会忽略用户兴趣变化，将导致广告系统的投放效率衰减。例如，当用户对当前广告内容产生兴趣偏移并频繁刷新时，基于缓存的广告内容难以满足其当前需求，造成推荐效率下降。

由于推送的广告内容是基于用户兴趣生成推荐，连续请求间的广告集合的差异度可反映兴趣偏移程度。具体而言，广告集合差异越小表明用户兴趣变化越小，进一步说明请求间冗余度越高。因此，我们将从多维度分析请求间的冗余特性。

当用户发起连续广告请求时，我们将先发请求定义为初始请求，后续请求定义为重复请求。令初始请求在召回、粗排、精排阶段生成的广告集合分别为、、，重复请求对应集合为、、，其最终展示广告为。据此定义以下请求冗余度量指标：

1）广告覆盖率（ACR）：计算初始请求各阶段广告集合对重复请求最终展示广告的覆盖比例，定义为。

2）pCTR差异：计算连续请求在精排阶段广告预估点击率的差异度，定义为。

3）出价差异：计算初始请求与重复请求的广告主出价差异度，定义为。

如图1所示，我们绘制了广告覆盖率的分布情况。从各子图可观察到：随着初始请求与重复请求的时间间隔增大，广告覆盖率分布逐渐向低值区偏移——这表明请求冗余度与时间间隔呈显著正相关。通过对比相同时间间隔组内各子图的ACR分布，我们发现：推荐系统链路中靠前阶段的ACR显著高于靠后阶段。这是因为广告系统早期阶段输出的广告集合规模更大，使得覆盖率天然更高。在图 2 中，我们对pCTR差异和出价差异同样进行了分析得到相似的规律：时间间隔越长，pCTR及出价差异越大。

通过数据分析，我们发现如果缓存复用前次请求不同阶段的缓存结果，可以在细粒度算力回收下保持投放效率不跌。

图 1 广告系统各阶段的广告覆盖率分布。(a)召回阶段。(b)粗排阶段。(c)精排阶段。

图 2 不同时间段候选集 pctr 和 bid 差异分布

4. ComRecycle 算力回收系统

4.1 整体框架

图 3 展示了ComRecycle的整体框架，该框架在现有在线广告的级联系统中引入了缓存与复用流程。首先，ComRecycle 会根据预设规则（例如系统是否存有该用户的缓存数据）将到达的广告请求进行分类从而判断缓存和复用逻辑。对于初始请求，系统会调用多阶段模型生成最终展示广告，同时该请求在召回、粗排及精排阶段生成的广告集合都会进行缓存。对于重复请求，ComRecycle 会基于实时特征建模用户兴趣变化，随后采用适配的复用策略。系统提供四种策略选项：不复用、召回缓存复用、粗排缓存复用、精排缓存复用。

图 3 ComRecycle的整体框架

4.2 问题建模

在算力回收框架中，核心挑战是如何为每一次重复请求动态选择最优的复用策略。为此，我们将该决策过程建模为一个在线凸优化问题：在保证推荐效果不跌破给定阈值的前提下，最小化系统总计算开销。假设在线广告系统在短时间内收到个请求，每个请求可分配种不同的计算回收策略。对于请求，ComRecycle 为其分配计算回收策略，其中表示对请求采用策略。策略的取值范围为，分别对应不复用、召回缓存复用、粗排缓存复用、精排缓存复用策略。每个策略会产生固定的算力开销，且相较于不复用策略，请求采用策略时将会导致投放效率衰减。系统投放效率可通过 eCPM 等指标评估，因此边际效率衰减可用等式计算。算力成本可包含浮点运算量、CPU 核心数、GPU 资源等评估。我们的核心目标是将总效率衰减值控制在阈值的情况下最小算力开销。最终，我们将算力回收决策形式为下面的在线优化问题：

在线优化问题可以通过求解对偶问题，通过该问题可推导出适用于实时请求的、接近最优解的计算回收策略。由于原问题的目标函数为凸函数且约束条件为仿射，其满足 Slater 条件，这意味着对偶问题的最优解即为原问题的最优解。原问题的对偶问题为

根据 K.K.T. 条件，已知对偶解和，则原问题的最优解为

引理1：对任意 , 如果和同时成立, 那么。

基于引理我们可推导出离散的最优解满足

可推导出当时，解收敛于 0 或 1。因此取极限后，即可解得离散策略分配方案。由于各策略的算力成本是预先已知的常量，对每个请求的最优策略选择，最终仅取决于两个核心变量：复用策略的边际效率衰减，和对偶变量。其中，可视为统一了所有请求的决策尺度，动态平衡着算力节省与效率损失的超参。

4.3 基于 uplift 的效率衰减预估模型

在线分配算法中，不同算力回收策略的边际效率衰减如何得到是一个具有挑战性的问题。我们提出基于 uplift 模型的效率衰减预估器，用于评估不同策略的边际效率衰减。然而，由于对给定请求只能选择实施或跳过计算回收策略，当采用特定回收策略时，我们无法通过反事实推断观测到效率损失的真实值。为此，我们采用多任务学习方法解决该问题：通过并行估计不同算力回收策略下的系统效率，再通过差值计算获得边际效率衰减量的预测。

如图 4 所示，所有输入特征首先经过嵌入层处理，随后对用户行为序列建模——鉴于行为时序重要性存在差异，我们采用 GRU 建模用户序列行为。将 GRU 生成的行为序列嵌入与前期获得的嵌入向量拼接后，作为 MMoE 的共享底层输入。

该框架输出四个 logit：无回收策略的基准 logit ，以及复用缓存召回/粗排/精排广告集的 uplift logits 。基准 logit 与增量 logits 相加得到各策略的 treatment logits 。treatment logits 经激活函数处理后得到预估的投放效率，最终效率衰减的计算公式为。

图 4 基于 uplift 的效率衰减预估模型

4.4 拉格朗日乘子求解

我们假设投放效率与算力投入之间服从边际效用递减：投放效率逼近上限时，每追加一份算力带来的收益迅速衰减；而无论投入多少资源，投放效率终有不可逾越的天花板。该假设也与在线广告系统的实际观测一致。基于此假设，可通过算法1所述的二分搜索求解最优。为了应对在线流量的分时波动，我们沿用动态调控方法^[3,4]，以 15 分钟为数据统计窗口以更新，并将其于后续 15 分钟的服务周期。理论分析表明^[5]，该滑动更新策略在保持极低计算开销的同时，可获得与离线最优解几乎一致的效率保证。

实验

5.1 离线实验

在将 ComRecycle 框架上线部署前，我们先进行离线实验以评估框架的正确性与有效性。离线实验的实验设置为：为采用策略时的系统响应时间（RT），选择 RT 作为度量指标因其与算力开销正相关且易于测量；定义为广告覆盖率指标，因离线验证无法获取真实系投放效率，故选用 ACR 估算实际效率。

实验结果如表 3 和图 4 所示。可以观察到 ComRecycle 输出的策略和 DP 算得的理论最优策略达到了十分接近的效果，并且相比固定采用一种策略的方案可以大幅提高资源利用率。

表 3 静态算力回收策略的资源利用率比较

图 4 不同方法之间的投放效率与算力消耗对比

5.2 在线实验

我们在淘宝展示广告系统中部署ComRecycle框架进行在线A/B测试，对现有系统进行大规模改造且成效显著。以未实施任何回收策略的原广告系统为基线，通过调节效率衰减阈值，ComRecycle在维持与基线相当的投放效率的同时，节省了23%CPU与22%GPU的推理资源。

参考文献

[1] Agarwal D, Chen B C, Elango P, et al. Personalized click shaping through lagrangian duality for online recommendation[C]//Proceedings of the 35th international ACM SIGIR conference on Research and development in information retrieval. 2012: 485-494.

[2] Covington P, Adams J, Sargin E. Deep neural networks for youtube recommendations[C]//Proceedings of the 10th ACM conference on recommender systems. 2016: 191-198.

[3] Yuan Z, Ren K, Wang G, et al. Hydrus: Improving Personalized Quality of Experience in Short-form Video Services[C]//Proceedings of the 46th International ACM SIGIR Conference on Research and Development in Information Retrieval. 2023: 1127-1136.

[4] Jiang B, Zhang P, Chen R, et al. Dcaf: A dynamic computation allocation framework for online serving system[J]. arXiv preprint arXiv:2006.09684, 2020.

[5] Agrawal S, Wang Z, Ye Y. A dynamic near-optimal algorithm for online linear programming[J]. Operations Research, 2014, 62(4): 876-890.

END

💡 关于我们

我们是阿里妈妈展示广告机制策略算法团队，致力于不断优化阿里展示广告技术体系，驱动业务增长，推动技术持续创新；我们不断升级工程架构以支撑阿里妈妈展示广告业务稳健&高效迭代，深挖商业化价值并优化广告主投放效果，孵化创新产品和创新商业化模式，优化广告生态健壮性；我们驱动机制升级，并已迈入 Deep Learning for Mechanisms 时代，团队创新工作发表于 KDD、WWW、ICML、CIKM、WSDM、AAMAS、AAAI 等领域知名会议。在此真诚欢迎有ML背景的同学加入我们！

也许你还想看

ICML'25 | 扩散模型的快速采样：可微分求解器搜索

ACL’25 Oral | 突破模糊瓶颈—LLM主动式不确定性识别与生成优化

WWW'25 | 大模型深度赋能搜索广告：相关性大模型多维知识蒸馏

自适应非欧表征广告检索系统AMCAD

乘风破浪，川流入海 —— LLM在阿里妈妈智能文案的应用

关注「阿里妈妈技术」，了解更多~

九章云极普惠算力

更多推荐

终极指南：如何将Instant Meshes无缝集成到现有3D管线中

Instant Meshes是一款强大的交互式场对齐网格生成器，能够快速将复杂3D模型转换为结构化四边形网格。本文将为您提供完整的集成指南，帮助您将这个高效工具融入现有的3D工作流程。🚀## 什么是Instant Meshes？Instant Meshes是一个开源的网格重拓扑工具，专门用于将任意三角形网格转换为高质量的四边形网格。它采用先进的场对齐算法，能够保持模型的几何特征，同时显著

九章云极普惠算力

gpt-repository-loader与提示优化指标设计：关键绩效

gpt-repository-loader 是一个革命性的命令行工具，专为AI语言模型设计，能够将完整的Git仓库转换为LLM友好的文本格式。这个工具保留了文件结构和内容，让AI模型能够高效处理代码库信息，为代码审查、文档生成等任务提供强大支持。在AI开发领域，提示优化已成为提升模型性能的关键环节，而gpt-repository-loader正是实现这一目标的重要工具。## 🤖 什么是gpt

九章云极普惠算力

BEAM数据结构和引用机制详解：构建高性能Erlang应用

想要构建高并发、高可用的分布式应用？Erlang的BEAM虚拟机正是为此而生！本文将深入解析BEAM的核心数据结构和引用机制，帮助您理解如何构建高性能的Erlang应用。BEAM虚拟机通过独特的内存管理策略和进程模型，为现代分布式系统提供了强大的基础架构支持。## BEAM内存架构概览BEAM虚拟机的内存系统采用了分层的设计理念，每个Erlang进程都拥有独立的堆栈结构。这种设计确保了进程