【信息科学与工程学】【解决方案体系】第三十八篇 推荐系统工程知识(含云计算产品推荐、价格推荐、利润设计)
计算每个隐藏状态 ht与候选物品A的注意力得分 at,然后用 at来影响GRU的更新门,得到最终的兴趣状态序列 [i1,i2,...,iT]。线上预测延迟较高,需要更强大的推理算力(GPU)支持。:需要存储共享用户向量(1亿+5000万-重叠)、域特定用户向量(1亿+5000万)、共享物品向量(2000万-重叠)、域特定物品向量(2000万)。状态 st是用户当前状态(如历史行为),
推荐系统工程知识体系
|
编号 |
类别 |
领域 |
模型配方 |
定理/算法/模型/方法名称 |
定理/算法/模型/方法的逐步思考推理过程及每一个步骤的数学方程式和参数选择/参数优化 |
精度/密度/误差/强度 |
底层规律/理论定理 |
典型应用场景和各类特征 |
变量/常量/参数列表及说明 |
数学特征 |
语言特征 |
时序和交互流程的所有细节/分步骤时序情况及数学方程式流、动模型和流向方法的数学描述 |
认知/注意力人性/利益/关系/情感/交易/理论基础和推荐形式特征 |
5000万并发用户所需要的CPU/GPU/内存/存储盘/IO硬件/队列/网络的资源情况 |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
|
R-0003 |
基础改进 |
协同过滤 |
评分矩阵 -> 物品相似度计算 -> 预测评分 |
基于物品的协同过滤 |
1. 数据表示:同R-0001,构建评分矩阵 Rm×n。 |
s_{i,j} |
} ) |
误差:RMSE/MAE。通常比UserCF更稳定,预测精度更高,尤其在用户数远大于物品数时。 |
同质性假设的物理解释:用户倾向于喜欢与他过去喜欢的物品相似的物品。 |
场景:亚马逊“买了这个商品的人也买了...”,电商、内容平台。 |
Rm×n:评分矩阵。 |
集合:用户集、物品集、评分集。 |
无。 |
离线训练流程: |
|
R-0004 |
基础改进 |
矩阵分解 |
评分矩阵 + 偏置项 -> 低维分解 |
偏置SVD |
1. 核心思想:在基础矩阵分解 r^ui=puTqi基础上,加入全局、用户、物品偏置项,以捕捉数据中的系统性偏差。 |
误差:RMSE。相较于基础MF,由于引入了偏置项,能更好地拟合实际评分分布,通常获得更低的RMSE。 |
评分由全局平均水平、用户个人偏差、物品自身属性以及用户与物品的交互(隐因子匹配)共同决定。 |
场景:显式评分预测任务(如电影评分)。 |
μ:全局平均评分,常量。 |
线性模型:预测公式是隐向量内积与偏置项的线性叠加。 |
无。 |
流程:与R-0002(基础MF)几乎相同,仅在预测和参数更新时增加偏置项计算。 |
理论基础:评分是多种偏差与潜在兴趣的共同结果。 |
资源估算:与R-0002(基础MF)几乎相同,仅增加存储用户和物品偏置向量的少量开销(约 |
|
R-0005 |
基础改进 |
矩阵分解 |
隐因子模型 + 时间动态 |
时间敏感的偏置SVD |
1. 核心思想:用户和物品的偏置并非静态,而是随时间变化。将偏置项建模为时间的函数。 |
t - t_u |
^{\beta} ),tu是用户平均评分时间。 |
误差:RMSE。在包含时间戳的数据集(如Netflix)上,能显著提升预测精度,因其捕捉了兴趣漂移和物品生命周期。 |
用户偏好和物品受欢迎度是随时间动态变化的,而非固定不变。 |
场景:具有强烈时间效应的推荐,如新闻、短视频、季节性商品。 |
t:时间戳,变量。 |
时间序列分析:将偏置视为时间序列。 |
无。 |
离线训练:需在训练样本中增加时间戳特征,优化时针对每个样本的特定时间t计算偏置。 |
|
R-0006 |
排序学习 |
点击率预测 |
特征向量 -> 线性加权 -> 逻辑函数 -> 预估CTR |
逻辑回归 |
1. 问题定义:将推荐问题转化为二分类(点击/未点击)问题。给定特征向量 x,预测点击概率 (P(y=1 |
\mathbf{x}) )。 |
误差/强度:使用对数损失(LogLoss)和AUC评估。模型简单、可解释性强、计算高效,是CTR预估的基准模型。对特征工程依赖大。 |
广义线性模型。用逻辑函数将线性组合结果映射到(0,1)区间,表示为概率。 |
场景:在线广告点击率预估、信息流推荐排序阶段。 |
x∈Rd:特征向量。 |
代数:向量内积。 |
无。 |
离线训练: |
理论基础:概率判别模型。将推荐视为在给定特征下用户是否点击的概率预估问题。 |
|
R-0007 |
排序学习 |
点击率预测 |
特征向量 -> FM层(一阶+二阶特征交互)-> 逻辑输出 |
因子分解机 |
1. 动机:在LR基础上,显式建模特征间的二阶交互,解决特征组合问题,且能处理高维稀疏数据。 |
误差:LogLoss, AUC。相比LR,能自动学习特征交叉,在特征交互重要的场景下(如“男性&游戏”),效果显著提升。 |
将特征交互的权重矩阵 Wij分解为两个低秩矩阵的乘积 viTvj,从而用隐向量的内积来建模两个特征间的交互强度。 |
场景:CTR预估、排序,尤其适合具有大量类别特征且特征组合重要的场景(如广告、推荐)。 |
x∈Rd:稀疏特征向量。 |
代数:向量内积,矩阵分解(将交互权重矩阵低秩化)。 |
无。 |
离线训练: |
理论基础:在稀疏数据下,通过因子分解来参数化特征交互。 |
资源估算: |
|
R-0008 |
深度学习 |
点击率预测 |
稀疏特征 -> 嵌入层 -> 多层感知机 -> 输出层 |
Deep Crossing |
1. 核心架构:用深度学习自动学习特征的高阶交叉,替代手工特征工程。 |
误差:LogLoss, AUC。相比线性模型和FM,理论上能学习更复杂的非线性模式,但需要更多数据和调参。 |
通过深度神经网络自动进行特征表示学习和高阶非线性组合。 |
场景:大规模稀疏特征的CTR预估,是深度学习CTR模型的经典范式。 |
Ei:第i个特征域的嵌入矩阵。 |
线性代数:矩阵乘法,向量拼接。 |
无。 |
离线训练: |
理论基础:表示学习与深度学习。用神经网络自动学习特征的高阶交叉表示。 |
资源估算: |
|
R-0009 |
深度学习 |
点击率预测 |
宽部分(记忆) + 深部分(泛化) -> 联合训练 |
Wide & Deep |
1. 核心思想:联合训练宽线性模型(记忆)和深度神经网络(泛化),兼顾记忆性与泛化性。 |
误差:LogLoss, AUC。在Google Play的线上A/B测试中取得显著效果提升。宽部分增强了模型的记忆能力,深部分提供了泛化能力。 |
集成学习思想。宽模型负责记忆历史数据中频繁出现的特征组合(记忆),深模型探索未出现过的特征组合(泛化),两者互补。 |
场景:应用商店推荐、大型信息流产品。特别适合同时需要捕捉高频规则(记忆)和探索新模式(泛化)的场景。 |
x:宽部分输入特征(含交叉特征)。 |
模型集成:线性模型与神经网络的并联集成。 |
无。 |
离线训练: |
理论基础:记忆与泛化的平衡。宽部分记住用户明确的偏好,深部分发掘潜在的偏好。 |
资源估算: |
|
R-0010 |
深度学习 |
点击率预测 |
稀疏特征 -> 嵌入层 -> 乘积层(内积/外积) -> DNN -> 输出 |
神经网络因子分解机 |
1. 动机:FM只能学习二阶特征交互,且交互方式是固定的内积。DeepFM用DNN来学习高阶特征交互,用FM组件来学习二阶交互,且共享嵌入层。 |
误差:LogLoss, AUC。在多个公开数据集上表现优于LR、FM和Wide&Deep(无需宽部分的手工特征)。 |
通过共享嵌入和双塔(FM塔和DNN塔)结构,统一且高效地学习低阶和高阶特征交互。 |
场景:CTR预估,是Wide&Deep的改进,避免了手工特征工程。 |
vi:特征i的嵌入向量(与FM共享)。 |
模型集成:FM与DNN的并行集成。 |
无。 |
离线训练/在线预测:流程与Wide&Deep类似,只是将“宽部分”替换为“FM部分”,且输入特征无需手工交叉。FM部分的计算使用优化后的O(kd)公式。 |
理论基础:继承Wide&Deep思想,用FM替代手工宽部分,实现完全端到端。 |
资源估算:与Deep Crossing/Wide&Deep处于同一量级。FM部分计算增加一些开销,但相比DNN部分可忽略。主要开销仍在嵌入表和DNN前向计算。 |
|
R-0011 |
深度学习 |
点击率预测 |
稀疏特征 -> 嵌入层 -> CIN(压缩交互网络) + DNN -> 输出 |
极深因子分解机 |
1. 动机:DNN学习高阶特征交互是隐式且 bit-wise 的,xDeepFM提出显式且 vector-wise 的高阶特征交互网络CIN。 |
误差:LogLoss, AUC。在包含丰富特征交互的数据集上,性能优于DeepFM等模型。 |
通过压缩交互网络显式地、向量级地学习有界阶特征交互。CIN的结构类似于RNN和CNN的交叉。 |
场景:对特征交互模式有复杂要求的CTR预估场景。 |
X0:初始嵌入矩阵。 |
张量运算:CIN层涉及张量(三维)的乘法和求和。 |
无。 |
离线训练/在线预测:计算图包含三部分并行。CIN部分的计算是主要的复杂度来源,需要实现高效的张量运算(通常用深度学习框架实现)。 |
理论基础:显式高阶特征交互建模。认为DNN的bit-wise交互在推荐任务中可能不是最优的,应进行vector-wise交互。 |
资源估算:由于CIN网络的存在,计算和存储开销显著高于DeepFM。假设CIN层数T=3,每层H=100,则CIN部分参数量巨大。线上预测延迟较高,需要更强大的推理算力(GPU)支持。模型大小可能达到数百MB至GB级别。 |
|
R-0012 |
深度学习 |
点击率预测 |
多专家网络 + 门控网络 -> 任务塔 |
多门混合专家 |
1. 问题定义:多任务学习,如同时预测点击率和观看时长。共享底层特征,但不同任务有不同模式。 |
误差:各任务各自的评估指标(如AUC,MAE)。通过共享专家网络,捕捉任务间共同模式;通过门控和任务塔,学习任务特定模式,缓解跷跷板现象。 |
集成学习与条件计算。不同任务可以“软选择”不同的专家组合,实现参数共享与任务特异性的平衡。 |
场景:推荐系统多目标优化(如点击率、点赞率、转发率、完播率等)、多场景推荐。 |
Ei(⋅):第i个专家网络函数。 |
条件计算:门控网络动态路由输入到不同的专家子网络。 |
无。 |
离线训练:前向传播计算各任务输出,计算加权总损失,反向传播更新所有网络(专家、门控、任务塔)参数。 |
理论基础:多任务学习。利用任务之间的相关性提升整体性能,并减少服务多个任务的总体计算开销。 |
资源估算: |
|
R-0013 |
深度学习 |
召回/表征学习 |
用户序列 -> 深度网络 -> 用户向量;物品特征 -> 深度网络 -> 物品向量 -> 最近邻搜索 |
YouTube DNN 召回 |
1. 两阶段流程:召回(候选集生成) + 排序。本条目聚焦召回阶段模型。 |
强度:通过离线向量检索,能从百万/千万量级物品库中快速召回数百个候选,是工业界召回标准方案。评估常用召回率、命中率等。 |
将推荐问题转化为超大规模多分类问题,学习一个从用户上下文到用户向量的映射,使得用户向量与其即将交互的物品向量在向量空间中接近。 |
场景:YouTube视频召回,以及各类大规模内容推荐的召回阶段。 |
用户特征:历史物品ID序列、搜索词、人口统计等。 |
表示学习:学习用户和物品的稠密向量表示。 |
处理搜索词序列时,会使用简单的语言模型(如n-gram)或词嵌入。 |
离线训练: |
理论基础:从用户历史行为序列中学习用户的即时兴趣表征。 |
资源估算: |
|
R-0014 |
序列模型 |
序列推荐 |
用户行为序列 -> GRU -> 下一个物品预测 |
GRU4Rec |
1. 问题定义:基于用户的历史交互序列(如点击序列)Su=[i1,i2,...,it],预测下一个可能交互的物品 it+1。 |
误差:使用精确率@K、召回率@K、MRR、NDCG等序列推荐指标。能够有效捕捉用户兴趣的序列模式和短期演变。 |
序列依赖建模。用户的下一个行为依赖于之前的行为序列,GRU等RNN模型适合捕捉此类依赖。 |
场景:会话式推荐、下一首歌/视频推荐、电商下一件商品预测。 |
Su:用户行为序列。 |
序列建模:循环神经网络(RNN)及其变体GRU。 |
无。 |
离线训练: |
理论基础:序列模式与兴趣演化。用户的行为序列蕴含着其兴趣的转移和演化模式。 |
资源估算: |
|
R-0015 |
序列模型 |
序列推荐 |
用户行为序列 -> Transformer编码器 -> 下一个物品预测 |
SASRec |
1. 动机:克服RNN/GRU串行计算效率低、难以捕捉长距离依赖的缺点,使用自注意力机制建模序列。 |
误差:精确率@K,召回率@K,NDCG。在长序列和捕捉复杂依赖上通常优于GRU4Rec。 |
基于自注意力的序列建模。每个位置的表示是序列中所有位置(在其之前)的加权和,权重由相关性决定,能直接捕捉长程依赖。 |
场景:用户行为序列较长、依赖关系复杂的下一项推荐,如电商、音乐、长视频。 |
E:物品嵌入矩阵。 |
自注意力:计算序列内所有位置对之间的相关性。 |
无。 |
离线训练:输入序列 [i1,i2,...,iL],通过嵌入层和N层因果Transformer块,用最后一个位置的输出预测 iL+1,计算交叉熵损失并反向传播。 |
理论基础:Transformer在NLP的成功迁移。将用户行为序列视为“物品语言”的句子,预测下一个“词”。 |
资源估算: |
|
R-0016 |
图模型 |
协同过滤 |
用户-物品二部图 -> 图卷积网络 -> 用户/物品表征 -> 内积预测 |
LightGCN |
1. 图构建:将用户-物品交互数据构建为无向二部图 G=(V,E),其中节点集合 V=U∪I,边 (u,i)∈E表示用户u与物品i有过交互。 |
\mathcal{N}_u |
} \sqrt{ |
\mathcal{N}_i |
}} e_i^{(k-1)} ) |
\mathcal{N}_u |
} \sqrt{ |
\mathcal{N}_i |
}} e_u^{(k-1)} ) |
误差:召回率@K,NDCG@K,Hit Ratio@K。在协同过滤基准数据集上常达到SOTA,且模型简单高效。 |
|
R-0017 |
多任务学习 |
点击率/转化率预测 |
共享底层 -> MMoE门控 -> 多个任务塔 |
多门混合专家 |
(已在R-0012中详细描述。此处为保持编号连续性,简要列出,内容同R-0012) |
(同R-0012) |
(同R-0012) |
(同R-0012) |
(同R-0012) |
(同R-0012) |
(同R-0012) |
(同R-0012) |
( |
推荐系统工程知识体系表(R-0018 ~ R-0032)
|
编号 |
类别 |
领域 |
模型配方 |
定理/算法/模型/方法名称 |
定理/算法/模型/方法的逐步思考推理过程及每一个步骤的数学方程式和参数选择/参数优化 |
精度/密度/误差/强度 |
底层规律/理论定理 |
典型应用场景和各类特征 |
变量/常量/参数列表及说明 |
数学特征 |
语言特征 |
时序和交互流程的所有细节/分步骤时序情况及数学方程式流、动模型和流向方法的数学描述 |
认知/注意力人性/利益/关系/情感/交易/理论基础和推荐形式特征 |
5000万并发用户所需要的CPU/GPU/内存/存储盘/IO硬件/队列/网络的资源情况 |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
|
R-0018 |
排序学习 |
列表级排序 |
文档列表 -> 梯度提升树 -> Lambda梯度 -> 优化NDCG |
LambdaMART |
1. 问题定义:学习一个排序函数 f,使得对于查询 q,文档列表的排序结果最大化评价指标(如NDCG)。 |
\Delta Z_{ij} |
) |
强度:直接优化信息检索评价指标(如NDCG, MAP)。在众多排序学习竞赛中表现优异,是Learning to Rank的标杆算法。 |
梯度提升框架与代理损失函数。通过构造与指标变化量相关的梯度(Lambda梯度),将列表级排序问题转化为回归问题,用GBDT求解。 |
场景:搜索引擎、广告排序、推荐系统的排序阶段(精排)。 |
q:查询。 |
梯度提升:加法模型,前向分步算法。 |
无。 |
离线训练: |
|
R-0019 |
深度学习 |
点击率预测 |
稀疏特征 -> 嵌入层 -> Wide部分(记忆) + Deep部分(泛化) -> 联合输出 |
Wide & Deep |
1. 核心思想:联合训练宽线性模型(Wide)和深度神经网络(Deep),兼顾记忆(memorization)和泛化(generalization)。 |
\mathbf{x}) = \sigma( y{wide} + y{deep} + b_{joint} ) ) |
误差:LogLoss, AUC。通过结合线性和非线性模型,在Google Play推荐中取得了线上效果的显著提升。记忆部分使模型能够记住稀疏特征组合,泛化部分使模型能够探索未出现过的特征组合。 |
集成学习思想。宽模型负责记忆(利用历史共现),深模型负责泛化(学习特征深层交互),联合训练实现优势互补。 |
场景:大规模推荐系统、应用商店推荐、广告点击率预估。 |
x:原始特征向量(包括用于Wide的交叉特征)。 |
线性模型:Wide部分是广义线性模型。 |
无。 |
离线训练: |
理论基础:记忆与泛化的权衡。记忆通过宽线性模型捕捉历史数据的强规则;泛化通过深度模型发掘潜在的新模式。 |
|
R-0020 |
深度学习 |
点击率预测 |
稀疏特征 -> 嵌入层 -> FM组件(二阶交互) + Deep组件(高阶交互) -> 联合输出 |
DeepFM |
1. 动机:结合FM和深度神经网络的优势,同时低阶和高阶特征交互,且无需Wide & Deep中的人工特征工程。 |
L |
}a^{ |
L |
} + b^{ |
L |
}) )(经过一个线性层) |
误差:LogLoss, AUC。相比Wide & Deep,省去了人工交叉特征工程,且FM部分能更有效地学习二阶交互,通常能取得更好的效果。 |
集成学习与表征共享。FM作为Wide部分的增强替代,通过共享嵌入层实现低阶与高阶特征交互的协同学习。 |
场景:CTR预估,特别是特征交互复杂的场景,如电商、广告。 |
|
R-0021 |
深度学习 |
用户兴趣建模 |
用户行为序列 -> 注意力权重 -> 加权求和 -> 兴趣表示 |
深度兴趣网络 |
1. 动机:用户兴趣是多样的,且当前候选物品只与历史行为中的部分兴趣相关。DIN通过引入注意力机制,自适应地学习用户兴趣与候选物品的相关性。 |
误差:AUC, LogLoss。在阿里巴巴的电商场景中,DIN显著提升了CTR和GMV。它能够根据候选物品动态调整用户兴趣表示,模拟了人类注意力机制。 |
注意力机制。用户对历史行为的关注度不是均等的,而是与当前候选物品高度相关。注意力权重模拟了这种相关性。 |
场景:用户历史行为丰富的场景,如电商、短视频、新闻推荐。 |
bi:用户历史行为物品i的嵌入向量。 |
注意力机制:软注意力,权重通过神经网络和softmax计算。 |
无。 |
离线训练: |
理论基础:注意力心理学。人类的注意力是有限的,且会根据当前任务(候选物品)选择性地关注历史信息中的相关部分。 |
资源估算: |
|
R-0022 |
深度学习 |
用户兴趣建模 |
用户行为序列 -> GRU序列建模 -> 注意力兴趣演化 -> 兴趣状态 |
深度兴趣进化网络 |
1. 动机:用户兴趣是动态演化的,DIN忽略了行为间的时序依赖。DIEN通过GRU对行为序列建模,并设计辅助损失和注意力机制来捕捉兴趣演化。 |
误差:AUC。相比DIN,DIEN通过建模兴趣的序列演化,能更好地捕捉用户兴趣的动态变化趋势,在电商等强时序场景下效果更优。 |
序列建模与注意力机制的结合。用户兴趣不仅与当前候选相关,其本身也遵循一个随时间演化的序列模式。GRU用于建模序列,注意力用于聚焦相关演化路径。 |
场景:用户兴趣有明显演化趋势的场景,如电商购物(从浏览到购买)、新闻阅读(话题演变)。 |
bt:t时刻的用户行为物品嵌入。 |
循环神经网络:GRU,用于处理变长序列,捕捉时序依赖。 |
无。 |
离线训练: |
理论基础:序列建模与兴趣演化。用户兴趣不是静态的,而是随着时间推移和交互的进行而不断变化和演进的。 |
资源估算: |
|
R-0023 |
深度学习 |
用户行为序列 |
用户行为序列 -> Transformer编码器 -> 序列表征 -> 下一项预测 |
行为序列Transformer |
1. 动机:将自然语言处理中的Transformer架构应用于用户行为序列建模,利用其强大的序列编码能力和并行计算优势。 |
i_1, ..., i_T) = \text{softmax}(h_T W^T) ) |
误差:使用召回率@K、NDCG@K、MRR等序列推荐指标。在捕捉长期依赖和并行计算效率上优于RNN-based模型。 |
自注意力机制。允许序列中任意两个位置直接交互,从而更好地捕捉长距离依赖关系,并避免了RNN的序列计算瓶颈。 |
场景:下一项预测,如音乐播放列表推荐、短视频流推荐、电商下一件商品推荐。 |
it:序列中第t个物品的ID。 |
自注意力:序列内元素两两之间的注意力计算。 |
无。 |
离线训练: |
理论基础:序列建模与自注意力。将用户行为序列视为一种“语言”,用Transformer这种强大的序列模型来学习其语法和语义,预测下一个“词”。 |
|
R-0024 |
图神经网络 |
协同过滤 |
用户-物品二部图 -> 图卷积层 -> 用户/物品嵌入 -> 内积预测 |
LightGCN |
1. 动机:简化NGCF,发现特征变换和非线性激活在协同过滤中不是必需的。LightGCN仅保留图卷积的核心——邻居聚合。 |
\mathcal{N}_u |
}\sqrt{ |
\mathcal{N}_i |
}} e_i^{(l)} ) |
\mathcal{N}_u |
}\sqrt{ |
\mathcal{N}_i |
}} e_u^{(l)} ) |
误差:召回率@K,NDCG@K。在多个公开数据集上,LightGCN在更简单的架构下,取得了优于NGCF等复杂GCN模型的效果,且训练更快、参数更少。 |
|
R-0025 |
图神经网络 |
协同过滤 |
用户-物品二部图 -> 嵌入传播层(特征变换+非线性) -> 高阶连通性 -> 内积预测 |
神经图协同过滤 |
1. 动机:将用户-物品交互图视为二部图,在图结构上通过嵌入传播层显式地编码协同信号,以学习更好的用户和物品表示。 |
\mathcal{N}_u |
}\sqrt{ |
\mathcal{N}_i |
}} (W_1 e_i + W_2 (e_i \odot e_u)) ) |
误差:召回率@K,NDCG@K。首次将GCN明确引入协同过滤,证明了在交互图上进行嵌入传播的有效性。但后续LightGCN指出其许多操作可能非必要。 |
图神经网络的消息传递范式。通过多层的邻居信息聚合,节点可以接收到多跳邻居的信息,从而捕获图中高阶的连通性模式。 |
场景:隐式反馈的协同过滤推荐。 |
推荐系统工程知识体系表(R-0026 ~ R-0032)
|
编号 |
类别 |
领域 |
模型配方 |
定理/算法/模型/方法名称 |
定理/算法/模型/方法的逐步思考推理过程及每一个步骤的数学方程式和参数选择/参数优化 |
精度/密度/误差/强度 |
底层规律/理论定理 |
典型应用场景和各类特征 |
变量/常量/参数列表及说明 |
数学特征 |
语言特征 |
时序和交互流程的所有细节/分步骤时序情况及数学方程式流、动模型和流向方法的数学描述 |
认知/注意力人性/利益/关系/情感/交易/理论基础和推荐形式特征 |
5000万并发用户所需要的CPU/GPU/内存/存储盘/IO硬件/队列/网络的资源情况 |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
|
R-0026 |
序列推荐 |
下一项预测 |
用户行为序列 -> 卷积层 -> 水平&垂直卷积 -> 全连接层 -> 预测 |
Caser |
1. 动机:将用户最近L个行为序列视为一个“图像”,使用卷积神经网络(CNN)来捕捉序列中的局部和全局模式。 |
误差:Recall@K, NDCG@K。Caser首次将CNN应用于序列推荐,能有效捕捉序列中的局部连续模式和特征交互,在短序列场景下表现优异。 |
卷积神经网络的局部感知与参数共享。将序列视为图像,利用卷积核提取局部特征,并通过不同大小的卷积核捕捉多尺度模式。 |
场景:用户行为序列较短且顺序重要的场景,如电商购物车推荐、音乐播放列表生成。 |
L:序列长度。 |
2D卷积:在序列长度和嵌入维度两个方向进行卷积操作。 |
无。 |
离线训练: |
理论基础:序列模式的局部性。用户的连续行为往往表现出短期的、局部的模式(如购买手机后买手机壳),CNN擅长捕捉此类局部相关模式。 |
资源估算: |
|
R-0027 |
图神经网络 |
协同过滤 |
用户-物品二部图 -> 多层图卷积 -> 非线性变换 -> 用户/物品最终表示 |
神经图协同过滤 |
1. 动机:传统的图卷积(如LightGCN)只进行线性传播,缺乏非线性激活,可能限制模型表达能力。NGCF在图卷积中显式加入非线性变换和 dropout。 |
\mathcal{N}_u |
}\sqrt{ |
\mathcal{N}_i |
}} ( \mathbf{W}1^{(l)} \mathbf{e}i^{(l-1)} + \mathbf{W}2^{(l)} (\mathbf{e}i^{(l-1)} \odot \mathbf{e}_u^{(l-1)}) ) ) |
误差:Recall@K, NDCG@K。NGCF通过引入非线性激活和特征变换,理论上具有比LightGCN更强的表达能力,但在实际大规模数据中,其训练复杂度更高,效果提升有时不明显。 |
图神经网络与特征非线性变换。在消息传递和节点更新中引入可学习的权重矩阵和激活函数,增强模型对复杂模式的拟合能力。 |
场景:用户-物品交互数据丰富的场景,追求模型表达能力的提升。 |
G:用户-物品二部图。 |
非线性变换:每层使用激活函数。 |
|
R-0028 |
多任务学习 |
转化率预估 |
曝光 -> 点击率预估 -> 点击 -> 转化率预估 -> 转化 |
完整空间多任务模型 |
1. 问题:传统CVR预估模型面临样本选择偏差(SSB)和数据稀疏问题。SSB指CVR模型只用点击样本训练,但线上预测作用于全部曝光样本,数据分布不一致。 |
误差:CTCVR任务的AUC。ESMM通过在全空间建模和利用CTR任务的海量样本作为辅助,有效缓解了CVR预估的样本选择偏差和数据稀疏问题,显著提升CVR和CTCVR预估的准确性。 |
概率图模型与多任务学习。将点击和转化视为一个顺序事件链,利用乘法定理在全空间定义目标,并通过多任务共享学习解决数据稀疏。 |
场景:电商、广告等需要预估后续转化行为的场景(如下单、购买、下载)。 |
x:输入特征(用户、物品、上下文)。 |
概率乘法: |
无。 |
离线训练: |
理论基础:用户决策漏斗。用户的决策过程是顺序的(曝光->点击->转化),后一事件依赖于前一事件的发生。ESMM显式建模了这种依赖关系。 |
资源估算: |
|
R-0029 |
深度学习 |
特征交叉 |
稀疏特征 -> 嵌入层 -> 压缩交互网络 -> 逐元素交叉 -> 高阶交叉向量 |
显式高阶交叉网络 |
1. 动机:DeepFM等模型隐式地学习特征交叉,而xDeepFM旨在显式地学习有界阶的特征交叉,且交叉是向量级的,而非标量级(如DCN)。 |
误差:LogLoss, AUC。xDeepFM通过CIN显式地、向量级地学习特征交叉,能够更有效地捕获高阶特征交互,在公开数据集上表现优于DeepFM和DCN。 |
显式特征交叉与张量分解。CIN的操作类似于对特征嵌入进行逐层的、受控的外积交互,并通过求和池化压缩,最终生成高阶交叉特征。 |
场景:CTR预估,特别是特征交互复杂且重要的场景,如广告、电商。 |
m:特征域的数量。 |
外积式交互:通过逐元素乘实现特征向量的交互。 |
无。 |
离线训练: |
理论基础:特征交互的组合爆炸与有界性。并非所有高阶交叉都有用,xDeepFM通过显式、有界、向量级的交叉,试图学习那些真正有用的高阶组合。 |
资源估算: |
|
R-0030 |
强化学习 |
连续动作推荐 |
状态 -> 演员网络 -> 确定性动作 -> 评论家网络 -> Q值 -> 策略梯度更新 |
深度确定性策略梯度 |
1. 问题建模:将推荐视为连续动作空间的强化学习问题。状态 st是用户状态,动作 at是推荐策略的参数(如排序权重向量),奖励 rt是用户反馈。 |
强度:长期累积奖励。DDPG能够学习连续动作空间中的策略,适用于推荐系统中需要微调连续参数(如混合权重、探索率)的场景,以优化长期指标。 |
确定性策略梯度定理与演员-评论家方法。结合了值函数逼近和策略搜索,适用于连续动作空间,通过确定性策略减少方差。 |
场景:需要优化连续控制参数的推荐系统,如信息流排序权重的动态调整、探索与利用的平衡、多目标融合权重的在线学习。 |
st:状态向量(用户特征、上下文)。 |
确定性策略:演员网络输出确定性动作,而非概率分布。 |
无。 |
离线训练(基于模拟器或历史日志重建MDP): |
理论基础:强化学习中的连续控制。推荐系统的许多决策(如权重分配)本质上是连续的,DDPG提供了在此类空间中学习最优策略的框架。 |
资源估算: |
|
R-0031 |
知识图谱 |
知识增强推荐 |
用户-物品交互图 + 知识图谱 -> 图注意力传播 -> 关系感知聚合 -> 联合表示 |
知识图谱注意力网络 |
1. 动机:将知识图谱中的实体关系和属性信息引入推荐,以提升可解释性、缓解冷启动和挖掘深层次关联。 |
\mathcal{N}_h |
} \mathbf{W}r \mathbf{e}t ) |
误差:Recall@K。通过融入知识图谱,能够为推荐提供基于关系的解释(如“推荐这部电影是因为你喜欢它的导演”),并提升稀疏物品和冷启动用户的推荐效果。 |
异质图神经网络与注意力机制。通过关系特定的变换和注意力权重,在知识图谱上进行信息传播,将结构化知识注入表示学习。 |
场景:需要丰富侧信息或可解释性的推荐,如电影、音乐、书籍、新闻推荐。 |
G:包含用户、物品和知识实体的异质图。 |
关系感知卷积:对不同关系类型使用不同的变换矩阵。 |
无。 |
离线训练: |
|
R-0032 |
跨域推荐 |
无重叠用户 |
源域数据 -> 域映射函数学习 -> 目标域表示 -> 目标域推荐 |
无监督域自适应推荐 |
1. 问题:源域(如电影)有丰富的用户-物品交互数据,目标域(如书籍)数据稀疏,且两个域没有重叠的用户或物品。目标是利用源域知识提升目标域推荐。 |
误差:目标域的推荐精度(如Recall@K)。在目标域数据极度稀疏时,通过域自适应能显著超越仅在目标域训练的基础模型,有效解决冷启动问题。 |
域自适应与表示学习。假设不同域的用户和物品共享一个潜在的语义空间,通过对抗学习对齐两个域的表示分布。 |
场景:跨平台推荐(如从腾讯视频到QQ音乐)、新产品线冷启动、跨语言推荐。 |
Us,Vs:源域的用户和物品嵌入矩阵。 |
对抗训练:生成对抗网络思想,最小化域间分布差异。 |
无。 |
训练流程: |
理论基础:域自适应理论。尽管数据分布不同,但不同领域背后的用户兴趣模式可能存在可迁移的潜在结构。 |
资源估算: |
推荐系统工程知识体系表
|
编号 |
类别 |
领域 |
模型配方 |
定理/算法/模型/方法名称 |
定理/算法/模型/方法的逐步思考推理过程及每一个步骤的数学方程式和参数选择/参数优化 |
精度/密度/误差/强度 |
底层规律/理论定理 |
典型应用场景和各类特征 |
变量/常量/参数列表及说明 |
数学特征 |
语言特征 |
时序和交互流程的所有细节/分步骤时序情况及数学方程式流、动模型和流向方法的数学描述 |
认知/注意力人性/利益/关系/情感/交易/理论基础和推荐形式特征 |
5000万并发用户所需要的CPU/GPU/内存/存储盘/IO硬件/队列/网络的资源情况 |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
|
R-0033 |
强化学习 |
在线学习与探索 |
状态 -> 深度Q网络 -> 动作价值 -> ε-贪婪策略 |
深度Q网络用于新闻推荐 |
1. 问题建模:将推荐过程建模为马尔可夫决策过程。 |
强度:长期收益。评估指标为长期用户参与度(如总点击量、停留时长)。能够平衡探索与利用,优化长期收益,而非单次点击。 |
贝尔曼最优方程。最优动作价值函数满足 Q∗(s,a)=E[r+γmaxa′Q∗(s′,a′)]。DQN通过函数近似和时序差分学习来逼近 Q∗。 |
场景:信息流推荐(如新闻、短视频)、游戏关卡推荐,其中用户兴趣动态变化,且需要探索未知兴趣。 |
st:状态向量。 |
动态规划:贝尔曼方程。 |
无。 |
离线训练/在线模拟: |
理论基础:强化学习,序列决策理论。将用户视为环境,推荐系统为智能体,通过交互学习最大化用户长期满意度的策略。 |
资源估算: |
|
R-0034 |
多任务学习 |
点击率/转化率预估 |
点击率模型 -> 转化率模型(以点击为条件) |
完整空间多任务模型 |
1. 问题洞察:传统CVR预估使用点击样本训练,但线上预测需对全空间(曝光样本)进行。这导致样本选择偏差(SSB)和数据稀疏(点击样本远少于曝光样本)问题。 |
误差:CTR任务用AUC/LogLoss,CVR任务用AUC/LogLoss。ESMM解决了CVR预估的SSB和DS问题,在电商等场景显著提升GMV。 |
概率论中的链式法则。曝光后转化事件是点击事件和点击后转化事件的交集,其概率是条件概率的乘积。 |
场景:电商、在线广告等具有“曝光->点击->转化”链路的场景。 |
x:特征向量。 |
概率论:条件概率、联合概率、链式法则。 |
无。 |
离线训练: |
理论基础:用户行为链路的概率建模。准确预估最终转化概率需要联合建模中间行为。 |
资源估算: |
|
R-0035 |
跨域推荐 |
知识迁移 |
源域/目标域数据 -> 共享/特定映射 -> 联合训练 |
跨域矩阵分解 |
1. 问题定义:有两个相关但不完全相同的领域(如电影评分域和书籍评分域)。目标域数据稀疏(冷启动),希望利用源域丰富数据提升目标域推荐效果。 |
误差:目标域RMSE。在目标域数据稀疏时,通过利用源域信息,能显著提升目标域的预测精度,缓解冷启动。 |
表征学习的迁移。用户和物品的潜在表征可以分解为跨域共享的公共部分和域特定的私有部分。 |
场景:公司内多产品线推荐(如腾讯视频和腾讯新闻)、跨国家电商平台、新闻和短视频推荐。 |
pus:用户u的共享隐向量。 |
矩阵分解:低秩近似。 |
无。 |
离线训练: |
理论基础:迁移学习。不同但相关的领域之间存在可迁移的潜在知识(用户兴趣共性)。 |
资源估算: |
|
R-0036 |
知识图谱 |
语义增强 |
用户-物品交互图 + 知识图谱 -> 多跳路径聚合 -> 联合表征 |
知识图谱注意力网络 |
1. 动机:利用外部知识图谱(KG)中物品的属性和关系,丰富物品的语义表示,并引入高阶连接关系,以提升推荐效果和可解释性。 |
误差:召回率@K,NDCG@K。通过引入丰富的KG语义信息,能有效提升推荐的准确性、多样性和可解释性,尤其有利于长尾和冷启动物品。 |
异构图神经网络。通过注意力机制区分不同关系邻居的重要性,在统一的向量空间中融合协同信号和语义信号。 |
场景:电影、音乐、书籍、新闻等具有丰富元数据和外部知识的领域推荐。 |
Gui,Gkg:用户-物品交互图和知识图谱。 |
异构图神经网络:处理多种节点和边类型的图。 |
知识图谱本身包含文本形式的实体和关系名称,但模型通常将其视为离散符号。 |
离线训练: |
理论基础:知识增强的表示学习。外部知识为推荐系统提供了超越共现模式的深层语义理解。 |
资源估算: |
|
R-0037 |
联邦学习 |
隐私保护 |
本地数据 -> 本地模型更新 -> 安全聚合 -> 全局模型 |
联邦矩阵分解 |
1. 问题设定:多个客户端(如用户设备或组织)拥有本地私有数据(评分),希望协同训练一个全局推荐模型,而不共享原始数据。 |
误差:全局模型在测试集上的RMSE。目标是在保护隐私的前提下,达到接近集中式训练的模型性能。性能损失取决于客户端数据异构性、通信轮次和隐私预算。 |
分布式优化与隐私计算。在数据孤岛间通过传递模型参数而非数据,实现协同学习,满足隐私法规要求。 |
场景:跨组织协作推荐(如医院间)、移动设备上的输入法下一词预测、隐私敏感的个性化服务。 |
P,Q:全局用户和物品矩阵。 |
分布式优化:联邦平均是一种特殊的分布式SGD。 |
无。 |
训练流程: |
理论基础:隐私计算与联邦学习。在数据所有权意识增强和法规(如GDPR)约束下,实现“数据不动模型动”的协作智能。 |
资源估算: |
|
R-0038 |
因果推断 |
反事实推荐 |
用户-物品对 -> 倾向得分估计 -> 逆概率加权 -> 无偏损失 |
逆概率加权用于曝光偏差修正 |
1. 问题:观测到的点击数据存在曝光偏差:用户只能点击被系统曝光过的物品。这导致训练数据不是从全体物品中随机采样的,用标准损失(如BPR)训练的模型是有偏的。 |
\mathcal{U} |
\mathcal{I} |
} \sum{u \in \mathcal{U}} \sum{i \in \mathcal{I}} \delta(y{ui}, \hat{y}{ui}) ) |
误差:无偏性。目标不是直接优化观测数据的指标,而是获得一个对全空间评估更无偏的模型。在离线评估中,可能表现为在更合理的测试集(如随机曝光数据)上表现更好。 |
因果推断中的缺失数据理论。将未曝光物品的反馈视为随机缺失(MAR),通过逆概率加权可以构造目标参数的无偏估计。 |
场景:任何存在严重曝光偏差的推荐系统,特别是当系统历史策略非常偏向热门物品时。 |
Oui:曝光指示变量(二元)。 |
概率论:条件概率,期望的线性性。 |
|
|
R-0039 |
自动化机器学习 |
神经架构搜索 |
搜索空间 -> 控制器(RNN) -> 采样子网 -> 训练评估 -> 强化学习更新 |
基于强化学习的神经架构搜索 |
1. 目标:自动为特定推荐任务(如CTR预估)设计最优的神经网络架构,替代手工设计。 |
强度:搜索得到的最优架构在目标数据集上的性能(如AUC)通常优于人工设计的基准模型。但搜索过程计算成本极高。 |
元优化。将架构设计问题转化为一个序列决策问题,用强化学习在离散的搜索空间中寻找最优解。 |
场景:对模型性能有极致追求且计算资源充足的场景,如大型互联网公司的核心推荐业务。 |
搜索空间 A:所有可能架构的集合。 |
序列生成:控制器RNN生成架构描述序列。 |
架构描述是符号序列,控制器RNN处理此序列。 |
搜索流程: |
理论基础:自动化机器学习与元学习。将人的先验知识编码到搜索空间中,让算法自动探索和评估,寻找最优解。 |
资源估算: |
|
R-0040 |
基础算法 |
关联规则 |
交易数据库 -> 频繁项集挖掘 -> 关联规则生成 |
Apriori算法 |
1. 目标:发现物品之间的关联规则,形式如 X⇒Y(支持度,置信度),用于“买了又买”推荐。 |
强度:规则清晰可解释。评估指标为支持度和置信度。擅长发现强关联的商品组合,但可能产生大量规则,且对参数(min_sup, min_conf)敏感。 |
组合数学中的单调性原理。频繁项集的支持度随项集大小增加而单调非增,这构成了剪枝的基础。 |
场景:超市购物篮分析、电商捆绑销售推荐、零售业库存管理。 |
D:交易数据库,每条交易是一个物品集合。 |
集合论:项集是物品的集合,交易数据库是集合的集合。 |
无。 |
离线挖掘流程: |
理论基础:市场篮子分析。通过分析历史交易数据,发现物品之间潜在的共生或替代关系。 |
资源估算: |
|
R-0041 |
排序学习 |
列表级排序 |
文档列表 -> 列表级特征 -> 神经网络 -> 列表级得分 |
列表级排序模型 |
1. 动机:传统Pointwise和Pairwise方法只考虑单个文档或文档对,忽略了文档列表内部的相互影响(如多样性、冗余性)。Listwise方法直接优化整个列表的排序质量。 |
这些条目将覆盖因果推断、多目标优化、跨域推荐、序列建模、图神经网络、强化学习、联邦学习等前沿和重要方向。
推荐系统工程知识体系表(R-0042 ~ R-0060)
|
编号 |
类别 |
领域 |
模型配方 |
定理/算法/模型/方法名称 |
定理/算法/模型/方法的逐步思考推理过程及每一个步骤的数学方程式和参数选择/参数优化 |
精度/密度/误差/强度 |
底层规律/理论定理 |
典型应用场景和各类特征 |
变量/常量/参数列表及说明 |
数学特征 |
语言特征 |
时序和交互流程的所有细节/分步骤时序情况及数学方程式流、动模型和流向方法的数学描述 |
认知/注意力人性/利益/关系/情感/交易/理论基础和推荐形式特征 |
5000万并发用户所需要的CPU/GPU/内存/存储盘/IO硬件/队列/网络的资源情况 |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
|
R-0042 |
因果推断 |
反事实预估 |
观测数据 -> 倾向得分估计 -> 双重稳健估计量 -> 反事实点击率 |
逆倾向加权 |
1. 问题:从观测数据中估计推荐策略的因果效应。例如,评估如果给所有用户都推荐物品A,其点击率会是多少(反事实)。观测数据存在混杂偏差,因为历史策略倾向于给某些用户推荐某些物品。 |
x)}{p_0(a |
x)} r \right] ) |
x) )是产生观测数据的旧策略(倾向得分)。通过给每个观测样本 (x,a,r)赋予权重 (w = \pi(a |
x)/p_0(a |
x) )来纠正选择偏差。 |
x) )通常通过逻辑回归等模型,利用历史日志(特征x,行动a)来估计。 |
x)}{p_0(a |
x)} (r - \hat{r}(x,a)) \right] ) |
误差:策略价值估计的均方误差。IPW能有效消除由于历史策略偏好带来的偏差,得到更无偏的策略评估,是进行离线策略评估和优化的基础。 |
|
R-0043 |
多目标优化 |
排序学习 |
多个目标分数 -> 帕累托最优解学习 -> 个性化权重 -> 最终分数 |
多门控混合专家 |
1. 动机:推荐系统需要同时优化多个目标(如点击率、观看时长、点赞、分享)。不同用户对不同目标的偏好不同,需要个性化地融合多个目标。 |
强度:多目标综合性能。通过共享专家和个性化门控,MMoE能有效建模多个相关任务,并在任务间取得良好的权衡,避免跷跷板现象。 |
多任务学习与条件计算。通过门控机制根据输入(用户上下文)动态地组合共享专家,实现参数的高效利用和任务的个性化处理。 |
场景:信息流推荐(优化点击、时长、互动)、电商推荐(优化点击、转化、GMV)。 |
x:输入特征向量。 |
条件计算:门控网络根据输入决定激活哪些专家,是一种稀疏激活模式。 |
无。 |
离线训练: |
理论基础:多任务学习与个性化。用户对多个目标的偏好存在差异,模型应能根据上下文自适应地调整对不同目标的关注度。 |
资源估算: |
|
R-0044 |
跨域推荐 |
无重叠用户 |
源域数据 -> 域映射函数学习 -> 目标域表示 -> 目标域推荐 |
无监督域自适应推荐 |
1. 问题:源域(如电影)有丰富的用户-物品交互数据,目标域(如书籍)数据稀疏,且两个域没有重叠的用户或物品。目标是利用源域知识提升目标域推荐。 |
误差:目标域的推荐精度(如Recall@K)。在目标域数据极度稀疏时,通过域自适应能显著超越仅在目标域训练的基础模型,有效解决冷启动问题。 |
域自适应与表示学习。假设不同域的用户和物品共享一个潜在的语义空间,通过对抗学习对齐两个域的表示分布。 |
场景:跨平台推荐(如从腾讯视频到QQ音乐)、新产品线冷启动、跨语言推荐。 |
Us,Vs:源域的用户和物品嵌入矩阵。 |
对抗训练:生成对抗网络思想,最小化域间分布差异。 |
无。 |
训练流程: |
理论基础:域自适应理论。尽管数据分布不同,但不同领域背后的用户兴趣模式可能存在可迁移的潜在结构。 |
资源估算: |
|
R-0045 |
序列推荐 |
下一项预测 |
用户行为序列 -> 时间间隔感知Transformer -> 动态兴趣表示 -> 下一项预测 |
时间间隔感知序列推荐 |
1. 动机:用户行为之间的时间间隔包含重要信息(如短期冲动 vs. 长期兴趣)。标准Transformer的位置编码只编码顺序,未编码时间间隔。 |
误差:Recall@K, NDCG@K。通过显式建模时间间隔,能更好地区分用户行为的紧迫性、周期性或遗忘模式,在电商、音乐等强时间模式场景下提升推荐准确性。 |
时间序列分析。用户兴趣不仅与行为顺序有关,还与行为发生的时间密度和模式密切相关。 |
场景:具有强时间模式的推荐,如外卖(用餐时间)、新闻(时效性)、音乐(不同时段偏好)、电商(促销期)。 |
it:序列中第t个物品。 |
位置编码扩展:将绝对位置编码扩展为时间和位置的联合函数。 |
无。 |
离线训练: |
理论基础:时间心理学与记忆衰减。人类对事物的兴趣和记忆强度会随时间间隔拉长而衰减,时间间隔是兴趣强度和性质的重要指标。 |
资源估算: |
|
R-0046 |
图神经网络 |
社交推荐 |
用户-物品交互图 + 用户-用户社交图 -> 双图卷积 -> 联合表征 -> 推荐 |
社交图协同过滤 |
1. 问题:利用用户的社交关系(如关注、好友)来增强推荐,特别是解决冷启动用户问题。 |
\mathcal{N}_u |
}\sqrt{ |
\mathcal{N}_j |
}} h_j^{(l-1)} ) |
\mathcal{N}_u |
}\sqrt{ |
\mathcal{N}_j |
}} h_u^{(l-1)} ) |
误差:Recall@K。通过融合社交信号,能够为交互数据稀疏的冷启动用户提供更准确的推荐,并发现基于兴趣社区的推荐。 |
|
R-0047 |
强化学习 |
在线学习 |
状态 -> 多臂赌博机 -> 上置信界算法 -> 动作选择 |
上下文赌博机 |
1. 问题简化:将推荐简化为一个上下文多臂赌博机问题。每一轮,系统观察到上下文(用户特征)xt,从K个候选物品(臂)中选择一个 at推荐,然后观察到奖励 rt(如点击)。目标是最大化累计奖励。 |
x_t] = x_t^T \theta_a ) |
强度:累计遗憾(Regret)。UCB算法能很好地平衡探索和利用,其累计遗憾增长是次线性的,理论上有保障。适用于物品库相对固定、需要快速探索的场景。 |
随机多臂赌博机与贝叶斯推理。通过为每个臂维护一个奖励模型及其不确定性,选择时同时考虑预期收益(利用)和不确定性(探索)。 |
场景:新闻头条推荐、广告创意选择、冷启动物品探索。 |
xt:t轮观测到的上下文向量(用户特征)。 |
岭回归:带L2正则的线性回归,用于参数估计。 |
无。 |
在线服务流程: |
理论基础:探索-利用权衡。在不确定性下做决策,既要利用当前已知的最佳选择,也要探索潜在更好的选择,以优化长期收益。 |
|
R-0048 |
联邦学习 |
隐私保护 |
本地数据 -> 本地梯度 -> 差分隐私加噪 -> 安全聚合 -> 全局模型 |
差分隐私联邦学习 |
1. 目标:在联邦学习框架下,进一步提供严格的隐私保证,防止从共享的模型更新中推断出单个用户的原始数据。 |
误差:全局模型在测试集上的精度(如AUC)。在提供严格隐私保护的同时,模型精度会有一定损失。隐私预算 ϵ越小(隐私保护越强),噪声越大,模型精度通常越低。需要在隐私和效用之间权衡。 |
差分隐私的序列组合性。联邦学习多轮通信,每轮客户端更新都满足DP,通过组合定理可以计算总的隐私消耗。高斯机制提供了 (ϵ,δ)-DP。 |
场景:对隐私要求极高的领域,如医疗健康推荐、金融风险评估、政府服务。 |
Dk:客户端k的本地数据集。 |
梯度裁剪:L2范数投影,控制更新的敏感度。 |
无。 |
训练流程: |
S_t |
} \sum{k \in S_t} \tilde{\Delta \theta}k )。 |
|
R-0049 |
多模态推荐 |
内容理解 |
图像/文本特征 -> 多模态编码器 -> 融合表示 -> 协同过滤 |
视觉贝叶斯个性化排序 |
1. 动机:利用物品的视觉特征(如图像)来增强推荐,特别是对于新物品或文本描述稀疏的物品。 |
误差:Recall@K。通过引入视觉信息,能够提升推荐的准确性,尤其是在冷启动物品推荐上效果显著。模型能够捕捉“视觉相似性”带来的协同效应。 |
多模态表示学习。将不同模态(视觉、ID)的信息映射到统一的低维语义空间,并与协同信号联合优化。 |
场景:时尚电商(服装、家居)、图片分享社区(Pinterest)、视频封面推荐。 |
vj:物品j的原始视觉特征向量(来自CNN)。 |
矩阵分解扩展:在标准MF/BPR基础上,为物品表示增加了一个由视觉特征决定的偏置项。 |
无。 |
离线训练: |
理论基础:多模态认知。用户对物品的偏好不仅基于抽象的协同模式,也基于其直观的视觉内容。 |
资源估算: |
|
R-0050 |
序列推荐 |
下一篮子预测 |
用户历史购买序列 -> 图神经网络 -> 物品共现关系 -> 下一篮子预测 |
下一篮子推荐图神经网络 |
1. 问题:预测用户下一次购买会话(篮子)中会包含哪些物品。与下一项预测不同,这里输出是一个物品集合。 |
\mathcal{B}_u |
} \sum{i \in \mathcal{B}u} h_i^{(L)} )。 |
\mathcal{B}_c |
} \sum{i \in \mathcal{B}c} h_i^{(L)} )。 |
误差:F1-score@K, Recall@K。 |
这些条目将覆盖多任务学习、特征交叉、长序列建模、检索增强、因果纠偏、公平性、知识图谱、强化学习、序列化采样等多个重要且前沿的方向。
推荐系统工程知识体系表(R-0061 ~ R-0080)
|
编号 |
类别 |
领域 |
模型配方 |
定理/算法/模型/方法名称 |
定理/算法/模型/方法的逐步思考推理过程及每一个步骤的数学方程式和参数选择/参数优化 |
精度/密度/误差/强度 |
底层规律/理论定理 |
典型应用场景和各类特征 |
变量/常量/参数列表及说明 |
数学特征 |
语言特征 |
时序和交互流程的所有细节/分步骤时序情况及数学方程式流、动模型和流向方法的数学描述 |
认知/注意力人性/利益/关系/情感/交易/理论基础和推荐形式特征 |
5000万并发用户所需要的CPU/GPU/内存/存储盘/IO硬件/队列/网络的资源情况 |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
|
R-0061 |
多任务学习 |
转化率预估 |
曝光 -> 点击率预估 -> 点击 -> 转化率预估 -> 转化 |
ESMM |
1. 问题:传统CVR预估模型面临样本选择偏差(SSB)和数据稀疏问题。SSB指CVR模型只用点击样本训练,但线上预测作用于全部曝光样本,数据分布不一致。 |
误差:CTCVR任务的AUC。ESMM通过在全空间建模和利用CTR任务的海量样本作为辅助,有效缓解了CVR预估的样本选择偏差和数据稀疏问题,显著提升CVR和CTCVR预估的准确性。 |
概率图模型与多任务学习。将点击和转化视为一个顺序事件链,利用乘法定理在全空间定义目标,并通过多任务共享学习解决数据稀疏。 |
场景:电商、广告等需要预估后续转化行为的场景(如下单、购买、下载)。 |
x:输入特征(用户、物品、上下文)。 |
概率乘法: |
无。 |
离线训练: |
理论基础:用户决策漏斗。用户的决策过程是顺序的(曝光->点击->转化),后一事件依赖于前一事件的发生。ESMM显式建模了这种依赖关系。 |
资源估算: |
|
R-0062 |
深度学习 |
特征交叉 |
稀疏特征 -> 嵌入层 -> 显式高阶交叉网络 + 深度网络 -> 联合输出 |
DCN-V2 |
1. 动机:改进DCN,实现更灵活和强大的特征交叉。DCN-V2的核心是显式高阶交叉网络,它不再是单层的,而是多层的,且交叉方式更通用。 |
误差:LogLoss, AUC。DCN-V2通过改进的交叉网络,能够更有效地学习有界阶数的特征交叉,在公开数据集和工业场景中表现优于DCN和DeepFM等模型。 |
特征交叉的显式建模与门控机制。通过多层门控交叉,模型可以自适应地学习不同阶数、不同重要性的特征组合。 |
场景:CTR预估,特别是特征交互复杂且重要的场景,如广告、电商。 |
x0:初始嵌入拼接向量。 |
门控交叉:通过逐元素乘法实现特征筛选和加权交叉。 |
无。 |
离线训练: |
理论基础:特征交互的组合性。有效的特征交叉往往不是全阶的,而是有选择性的、有界的。门控机制模拟了这种选择性。 |
资源估算: |
|
R-0063 |
序列推荐 |
长序列建模 |
用户超长行为序列 -> 两阶段检索 -> 通用搜索单元 -> 兴趣检索 -> 精排 |
SIM |
1. 动机:用户行为序列可达数万,远超Transformer等模型的有效长度。SIM采用两阶段架构处理超长序列。 |
强度:在超长序列场景下的推荐精度(AUC)和效率。SIM通过“检索+精排”的两阶段范式,首次将万级长度用户行为序列应用于线上推荐,在阿里巴巴取得了显著效果提升。 |
分治思想与检索增强。将超长序列建模问题分解为高效的检索(缩小范围)和精确的建模(深入分析)两个子问题。 |
场景:拥有超长用户行为历史的场景,如电商、视频、新闻平台。 |
SL:用户超长行为序列(长度>10000)。 |
检索:近似最近邻搜索(ANN)或基于属性的过滤。 |
无。 |
在线服务流程: |
理论基础:注意力资源的有限性。用户在面对海量历史行为时,其注意力只会聚焦在与当前决策最相关的少数行为上。SIM模拟了这一认知过程。 |
资源估算: |
|
R-0064 |
检索增强 |
知识增强推荐 |
用户查询/画像 -> 检索相关文档 -> 文档编码 -> 与查询联合推理 -> 生成推荐 |
检索增强的生成式推荐 |
1. 动机:将外部知识(如商品描述、用户评论、百科文章)引入推荐系统,以提供更丰富、可解释的推荐理由,并缓解冷启动。 |
误差:推荐物品的Recall@K,生成文本的BLEU/ROUGE分数。RAR能够生成信息丰富、与知识相关的推荐理由,提升用户体验和信任度,并在数据稀疏时利用外部知识提升推荐质量。 |
检索增强的生成建模。将推荐问题转化为基于知识的条件生成任务,利用大规模预训练语言模型的知识和生成能力。 |
场景:需要可解释推荐、内容推荐的场景,如新闻、书籍、电影推荐;也适用于冷启动物品推荐。 |
q:用户查询(如用户画像文本、历史行为序列文本)。 |
检索:向量相似度计算(内积、余弦)。 |
语言特征:输入(查询、文档)和输出(推荐理由)均为自然语言文本。模型需要理解语义并生成流畅文本。 |
离线训练: |
理论基础:知识增强的决策。人类的推荐决策往往依赖于相关的背景知识。RAR模拟了“查阅资料再给出建议”的过程。 |
资源估算: |
|
R-0065 |
因果推断 |
纠偏 |
观测数据 -> 倾向得分估计 -> 逆倾向加权 -> 无偏模型训练 |
逆倾向加权 |
1. 问题:从有偏的观测数据中训练无偏的推荐模型。观测数据由历史推荐策略产生,存在流行度偏差(热门物品过度曝光)、位置偏差(靠前位置点击率高)等,导致模型学习到有偏的关联而非真实的用户偏好。 |
\mathcal{O} |
} \sum{(u,i,r) \in \mathcal{O}} \frac{w{ui}}{\hat{p}{ui}} \cdot \delta(\hat{r}{ui}, r) ) |
误差:在无偏测试集(如随机曝光数据)上的推荐精度(Recall@K)。IPS能够有效减轻流行度偏差和位置偏差,使模型更关注用户真实兴趣,而非历史策略的伪影。 |
因果推断中的反事实推理与重要性采样。通过给观测样本加权,模拟数据来自无偏的随机策略,从而得到无偏的损失估计量。 |
场景:任何存在严重曝光偏差的推荐系统,特别是需要评估或提升长尾物品覆盖率的场景。 |
O:观测到的交互数据集(用户,物品,奖励)。 |
重要性采样:使用权重 1/pui对观测分布进行重新加权,以估计目标分布(均匀曝光)下的期望损失。 |
无。 |
离线训练: |
|
R-0066 |
公平性 |
去偏差 |
用户/物品表示 -> 对抗学习 -> 去除敏感属性信息 -> 公平表示 |
对抗学习去偏差 |
1. 目标:学习到的用户或物品表示 z中不包含敏感属性 s(如性别、种族)的信息,从而实现公平推荐。 |
强度:公平性度量(如人口平等性、机会均等性)和推荐精度(AUC)的权衡。通过对抗学习,可以在推荐精度损失较小的情况下,显著降低模型对敏感属性的预测能力,提升公平性。 |
表示学习与对抗博弈。通过对抗训练,迫使模型学习到与敏感属性无关的、但对推荐任务有用的特征表示。 |
场景:需要避免推荐结果因性别、种族、年龄等敏感属性而产生歧视的场景,如招聘、信贷、内容推荐。 |
x:输入特征(用户/物品的非敏感特征)。 |
对抗训练:极小极大优化问题。 |
无。 |
离线训练: |
理论基础:公平机器学习。确保算法决策不基于受保护的敏感属性,促进机会平等和结果公平。 |
资源估算: |
|
R-0067 |
知识图谱 |
知识增强 |
用户-物品交互图 + 知识图谱 -> 图卷积 -> 多跳关系路径 -> 联合表示 |
知识图谱注意力网络 |
1. 动机:将知识图谱中的实体关系和属性信息引入推荐,以提升可解释性、缓解冷启动和挖掘深层次关联。 |
\mathcal{N}_h |
} \mathbf{W}r \mathbf{e}t ) |
误差:Recall@K。通过融入知识图谱,能够为推荐提供基于关系的解释(如“推荐这部电影是因为你喜欢它的导演”),并提升稀疏物品和冷启动用户的推荐效果。 |
异质图神经网络与注意力机制。通过关系特定的变换和注意力权重,在知识图谱上进行信息传播,将结构化知识注入表示学习。 |
场景:需要丰富侧信息或可解释性的推荐,如电影、音乐、书籍、新闻推荐。 |
G:包含用户、物品和知识实体的异质图。 |
关系感知卷积:对不同关系类型使用不同的变换矩阵。 |
无。 |
离线训练: |
|
R-0068 |
强化学习 |
序列决策 |
状态 -> 深度Q网络 -> Q值 -> ε-贪婪策略 -> 动作 |
深度Q网络 |
1. 问题建模:将推荐过程建模为马尔可夫决策过程(MDP)。状态 st是用户当前状态(如历史行为),动作 at是推荐的物品,奖励 rt是用户反馈(如点击、观看时长),状态转移由用户对推荐的反应决定。 |
s, a ] ),其中 γ是折扣因子。 |
强度:长期累积奖励。DQN旨在优化用户的长期满意度(如总观看时长、留存率),而不仅仅是即时点击率。在模拟环境和部分真实场景中能学习到优于贪婪策略的推荐策略。 |
时序差分学习与函数近似。将强化学习的Q-learning与深度神经网络结合,用于处理高维状态/动作空间。经验回放和目标网络是稳定训练的关键。 |
场景:交互式、序列化的推荐场景,如信息流、短视频流,其中用户的长期 engagement 是关键指标。 |
st:t时刻的状态(用户特征、历史行为序列等)。 |
贝尔曼最优方程:Q函数满足的递归方程。 |
无。 |
离线训练(基于历史日志或模拟器): |
推荐系统工程知识体系表(R-0081 ~ R-0100)
|
编号 |
类别 |
领域 |
模型配方 |
定理/算法/模型/方法名称 |
定理/算法/模型/方法的逐步思考推理过程及每一个步骤的数学方程式和参数选择/参数优化 |
精度/密度/误差/强度 |
底层规律/理论定理 |
典型应用场景和各类特征 |
变量/常量/参数列表及说明 |
数学特征 |
语言特征 |
时序和交互流程的所有细节/分步骤时序情况及数学方程式流、动模型和流向方法的数学描述 |
认知/注意力人性/利益/关系/情感/交易/理论基础和推荐形式特征 |
5000万并发用户所需要的CPU/GPU/内存/存储盘/IO硬件/队列/网络的资源情况 |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
|
R-0081 |
商业优化 |
利润最大化排序 |
用户特征 + 产品特征 -> CTR/CVR预估 -> 利润预估 -> 利润感知排序分数 -> 排序 |
利润感知的深度排序网络 |
1. 动机:传统推荐以CTR/CVR最大化为目标,但高点击率不一定带来高利润。需直接优化商业利润。 |
强度:推荐列表的期望利润(∑pui×πui)和实际利润。相比纯CTR排序,能显著提升单次推荐请求带来的平均利润,但可能略微降低CTR。 |
期望价值理论。将推荐视为决策,选择能最大化期望收益(概率×价值)的物品。将利润作为价值函数。 |
场景:电商、SaaS、云计算等直接销售产品的平台,核心商业目标是利润而非单纯流量。 |
pui:预估的转化概率。 |
乘法组合:排序分数为概率与利润的乘积。 |
无。 |
离线训练: |
理论基础:期望效用理论。理性决策者会选择期望效用最高的选项。在商业推荐中,效用即为利润。 |
资源估算: |
|
R-0082 |
长期价值 |
客户终身价值优化 |
用户历史行为 -> CLV预估模型 -> 长期价值系数 -> 与短期转化概率结合 -> 排序 |
客户终身价值增强的多任务学习 |
1. 动机:单次交易利润有限,应关注用户的长期价值(CLV)。推荐应倾向于能带来高CLV用户或能提升用户CLV的物品。 |
强度:长期用户总利润(CLV)。通过平衡短期转化和长期价值,能提升高价值用户的留存和消费,牺牲部分短期转化以换取更高的长期收益。 |
客户生命周期价值理论与多任务学习。将推荐决策的影响扩展到长期时间范围,通过多任务学习同时捕捉短期和长期信号。 |
场景:订阅制服务(如SaaS、云服务)、高复购率电商、需要用户粘性的平台。 |
puishort:短期转化概率。 |
线性加权:长期价值由本次贡献和用户基线线性组合。 |
无。 |
离线训练: |
理论基础:客户生命周期管理。企业的价值取决于其客户群的长期价值总和,而非单次交易。 |
资源估算: |
|
R-0083 |
博弈论 |
多方利益分配 |
平台、广告主、用户、合作伙伴等多方 -> 利益函数定义 -> Shapley值计算 -> 利益分配权重 -> 加权排序 |
基于Shapley值的多方利益平衡推荐 |
1. 问题:推荐影响多方利益:平台(利润)、广告主(ROI)、用户(满意度)、合作伙伴(佣金)。需公平分配推荐位价值。 |
S |
! ( |
N |
- |
S |
-1)!}{ |
N |
!} [v(S \cup {i}) - v(S)] ) |
强度:利益分配公平性(如Shapley值满足的四大公理)和系统总效用。能在多方间取得平衡,减少冲突,促进生态健康,但计算复杂度高。 |
|
R-0084 |
行为经济学 |
心理效应驱动推荐 |
用户决策心理特征 -> 心理效应模型(锚定、稀缺、社交证明等) -> 效应强度计算 -> 心理增强分数 -> 排序 |
行为经济学驱动的心理效应增强排序 |
1. 动机:利用人类认知偏差和启发式决策原理,设计更有效的推荐策略,提升转化。 |
强度:转化率提升。通过利用认知偏差,能在不改变产品本身的情况下显著提升用户的点击和购买意愿,尤其对冲动型消费有效。 |
行为经济学与启发式决策理论。人类决策并非完全理性,而是受系统性的心理效应影响。推荐系统可以主动利用这些效应。 |
场景:电商促销、限时抢购、旅游预订、课程销售等需要激发用户即时行动的领域。 |
pui:基础转化概率。 |
乘法增益:心理效应以乘性方式增强基础分数。 |
语言特征:心理效应常通过UI文案体现(如“限时”、“爆款”、“明星同款”),这些文本可作为特征输入。 |
离线训练/调参: |
理论基础:行为经济学(卡尼曼等人)。系统1(快思考)的启发式决策容易受框架效应、锚定等影响。 |
资源估算: |
|
R-0085 |
产品组合 |
云计算捆绑推荐 |
云计算产品图谱 -> 产品关联挖掘 -> 捆绑收益预估 -> 捆绑组合优化 -> 捆绑推荐 |
云计算产品捆绑优化的图神经网络 |
1. 动机:云计算产品(计算、存储、网络、数据库等)具有强互补性。捆绑销售可提高客单价、利润和用户粘性。 |
强度:平均客单价提升、捆绑销售转化率、客户生命周期价值。通过智能捆绑,能显著提升云计算平台的综合收益,并简化用户采购流程。 |
组合优化与图表示学习。将捆绑推荐建模为基于产品图谱的收益最大化组合选择问题。 |
场景:云计算市场(如AWS Marketplace、Azure Marketplace)、企业软件套装销售。 |
P:所有产品集合。 |
组合优化:从离散集合中选择最优子集。 |
无。 |
离线训练与优化: |
理论基础:产品组合理论与交叉销售。互补产品捆绑能降低用户的搜索和交易成本,同时增加供应商的销售额和客户粘性。 |
资源估算: |
|
R-0086 |
渠道管理 |
合作伙伴激励推荐 |
用户请求 -> 平台利润模型 + 合作伙伴佣金模型 -> 联合收益优化 -> 渠道感知排序 |
渠道激励感知的联合收益排序 |
1. 动机:在平台生态中,部分销售通过渠道合作伙伴完成。推荐时需平衡平台直接利润和合作伙伴佣金激励,以维持健康的渠道关系。 |
强度:渠道合作伙伴满意度、生态系统总收益、平台长期利润。通过合理分配利益,能激励渠道积极推广,扩大市场覆盖,实现共赢。 |
委托-代理理论与联合优化。平台(委托人)和渠道(代理人)利益不完全一致,需要通过机制设计(如排序算法)来协调。 |
场景:拥有庞大渠道网络的云计算厂商(如通过代理商销售云资源)、企业软件销售、硬件分销。 |
pui:用户u通过任何渠道购买物品i的转化概率。 |
线性加权:联合收益为双方收益的加权和。 |
无。 |
离线训练与参数设定: |
理论基础:渠道管理与生态系统理论。健康的合作伙伴生态系统是平台长期成功的关键,需要合理的利益分配机制。 |
资源估算: |
|
R-0087 |
广告混合 |
广告利润最大化 |
信息流内容 + 广告候选 -> 用户满意度预估 + 广告eCPM预估 -> 多目标优化 -> 混合排序 |
广告利润最大化的多目标排序 |
1. 问题:信息流中插入广告,需平衡用户体验(内容CTR)和广告收入(eCPM)。 |
强度:广告收入、用户互动率、用户留存。通过优化权重ω和约束δ,能在可接受的用户体验损失下最大化广告利润,找到最佳平衡点。 |
多目标优化与约束排序。将广告插播问题建模为带约束的双目标排序问题,目标是帕累托最优。 |
场景:社交媒体信息流、新闻资讯App、视频流媒体贴片广告等所有混合内容与广告的场景。 |
pictr:内容i的点击率预估。 |
线性加权:双目标通过权重合并为单目标。 |
无。 |
在线混合排序服务: |
理论基础:注意力经济与广告拍卖理论。用户的注意力是稀缺资源,需要在提供价值和货币化之间取得平衡。 |
资源估算: |
|
R-0088 |
动态定价 |
价格与推荐联合优化 |
用户上下文 + 产品特征 -> 需求弹性预估 -> 个性化定价模型 -> 价格感知的转化率预估 -> 利润最大化排序 |
基于强化学习的动态定价与推荐联合优化 |
1. 联合决策:价格显著影响购买概率。将定价和推荐作为联合决策,实时优化长期利润。 |
强度:长期累计利润。通过个性化定价和智能推荐相结合,能实现价格歧视的收益,同时通过推荐引导用户向高利润产品转化,最大化平台收益。 |
价格歧视理论与联合优化。根据用户的价格敏感度进行差异化定价(一级价格歧视的理想近似),并与推荐系统协同,实现收益管理。 |
场景:酒店、机票、网约车等动态定价领域,以及电商中的促销定价、云计算中的Spot实例定价等。 |
st:状态向量。 |
收益最大化:目标函数为期望利润。 |
无。 |
离线训练(基于历史日志或模拟器): |
理论基础:收益管理与动态定价。通过调整价格来匹配供需,最大化收益。结合推荐系统,可以更主动地引导需求。 |
资源估算: |
|
R-0089 |
知识图谱 |
企业关联利益推荐 |
企业客户图谱 -> 企业关系挖掘(投资、合作、供应链) -> 关系感知的利润模型 -> 关联企业协同推荐 |
企业关联利益的知识图谱推荐 |
1. 动机:企业客户之间存在复杂的商业关系(母公司-子公司、合作伙伴、竞争对手)。向一家企业推荐其关联企业已采购的产品,可提高转化率并深化生态绑定。 |
强度:大客户销售额、生态渗透率、战略合同价值。通过利用企业间关系,能实现交叉销售和向上销售,尤其在企业服务、云计算等B2B领域效果显著。 |
社会网络理论与B2B营销。企业的采购决策受其所在商业网络的影响,模仿和跟随关联企业的选择是常见行为。 |
场景:B2B电商、云计算服务商(向企业客户销售)、企业软件、供应链金融等。 |
E,E′:企业实体。 |
乘法增益:关联企业购买作为乘性增强因子。 |
无。 |
离线图谱构建与系数学习: |
理论基础:组织同构与B2B网络效应。企业倾向于采纳其网络中其他企业(特别是权威企业)已采纳的创新或解决方案。 |
资源估算: |
|
R-0090 |
促销策略 |
稀缺性与紧迫性驱动 |
用户实时上下文 -> 库存/时间压力特征 -> 紧迫感模型 -> 促销折扣决策 -> 促销内容生成与推荐 |
稀缺性与紧迫性驱动的智能促销推荐 |
1. 心理杠杆:利用“稀缺性”(库存有限)和“紧迫性”(时间有限)两大心理效应,设计促销策略,激发即时购买。 |
强度:促销期间的转化率提升、库存清理速度、促销ROI。通过智能触发和个性化促销,能以更小的折扣代价获得更大的销售提升,避免过度促销损害利润。 |
稀缺性原理与动态决策理论。物品的可得性减少时,其感知价值增加。时间压力能加速决策过程。通过数据驱动动态应用这些杠杆。 |
场景:电商大促(双11、黑五)、旅游产品(航班酒店)、票务、限量商品销售。 |
xt:上下文特征向量。 |
** |
推荐系统工程知识体系表(R-0101 ~ R-0120)
|
编号 |
类别 |
领域 |
模型配方 |
定理/算法/模型/方法名称 |
定理/算法/模型/方法的逐步思考推理过程及每一个步骤的数学方程式和参数选择/参数优化 |
精度/密度/误差/强度 |
底层规律/理论定理 |
典型应用场景和各类特征 |
变量/常量/参数列表及说明 |
数学特征 |
语言特征 |
时序和交互流程的所有细节/分步骤时序情况及数学方程式流、动模型和流向方法的数学描述 |
认知/注意力人性/利益/关系/情感/交易/理论基础和推荐形式特征 |
5000万并发用户所需要的CPU/GPU/内存/存储盘/IO硬件/队列/网络的资源情况 |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
|
R-0101 |
多目标博弈 |
平台生态治理 |
平台、卖家、买家、服务商多方博弈 -> 收益函数建模 -> 纳什均衡求解 -> 均衡感知的排名规则与流量分配 |
基于多智能体强化学习的平台生态均衡策略 |
1. 问题:平台生态中,卖家优化列表、买家选择、平台排名规则、服务商(如物流)服务质量相互影响,形成复杂博弈。单一目标优化可能导致生态失衡(如劣币驱逐良币)。 |
强度:生态健康度指标(如卖家流失率、买家NPS、纠纷率)、长期平台总收益。通过模拟博弈和寻找均衡,能制定出促进良性竞争、可持续增长的平台治理和排名策略,避免短期逐利导致的生态恶化。 |
博弈论(非合作博弈)与多智能体系统。将平台生态视为一个随机博弈,通过求解均衡来协调多方利益,实现系统层面的稳定和效率。 |
场景:大型电商平台(如淘宝、Amazon)、应用商店、云计算市场等复杂的多边市场。 |
N:智能体(参与方)集合。 |
随机博弈:状态转移和收益取决于所有智能体的联合动作。 |
无。 |
离线训练(在模拟环境中): |
理论基础:平台经济学与多智能体博弈。平台的长期价值取决于其构建的生态系统的健康和活力,需用博弈论思维进行治理。 |
资源估算: |
|
R-0102 |
公平分配 |
资源分配与曝光公平 |
物品集合(特别是长尾、新物品)-> 基尼系数/曝光熵优化 -> 带公平性约束的排序 -> 公平曝光分配 |
基尼系数约束下的公平曝光排序 |
1. 问题:马太效应导致热门物品获得绝大多数曝光,长尾和新物品缺乏机会,损害生态多样性和创新。 |
x_i - x_j |
}{2n \sum_{i=1}^n x_i} ),其中 xi是物品i的累计曝光量。 |
强度:曝光基尼系数、长尾物品的点击/转化率、物品生态多样性。通过主动干预曝光分配,能有效缓解流行度偏差,扶持新物品和长尾物品,增加生态丰富度和用户探索兴趣。 |
公平分配理论与约束优化。将推荐系统的曝光视为一种资源,其分配应满足一定的公平准则(如基尼系数),以促进整体生态健康。 |
场景:内容平台(新闻、音乐、视频)、电商、应用商店等需要维持内容多样性和创作者活力的平台。 |
si:物品i的原始预估分数(如CTR)。 |
基尼系数:衡量不平等性的经典指标。 |
无。 |
离线监控与参数调优: |
|
R-0103 |
因果推断 |
消除混淆偏差 |
观测数据(用户特征, 物品特征, 曝光, 点击) -> 后门调整 -> 因果效应估计 -> 无偏物品价值评估 |
基于后门调整的因果推荐 |
1. 问题:观测数据中,用户特征(如活跃度)同时影响物品曝光(活跃用户看到更多物品)和点击行为,构成混淆变量。直接拟合 P(click∥exposure)会得到有偏的因果效应(物品本身对点击的影响)。 |
误差:无偏的ATE估计。通过消除用户特征等混杂因素的影响,能更准确地评估“曝光”这一动作对点击的真实因果效应,从而更公正地评估物品质量和推荐策略效果。 |
因果推断中的后门调整与潜在结果框架。通过统计调整阻断后门路径,从观测数据中识别和估计因果效应。 |
场景:A/B测试的补充分析、离线策略评估、物品冷启动质量评估、去除用户选择偏差的影响。 |
Z:观测到的混杂变量(用户特征)。 |
条件独立性:在调整Z后,处理T与潜在结果独立。 |
无。 |
离线分析流程: |
理论基础:鲁宾因果模型。将推荐视为一项“实验”(曝光),需要分离出处理(曝光)本身对结果(点击)的净效应,剥离其他因素的影响。 |
资源估算: |
|
R-0104 |
生成式模型 |
个性化内容生成 |
用户画像 + 上下文 -> 大型语言模型 -> 条件生成 -> 个性化广告文案/产品描述/推荐理由 |
基于大型语言模型的个性化内容生成 |
1. 动机:利用大语言模型(LLM)强大的理解和生成能力,为每个用户和物品实时生成高度个性化的文本内容,如广告文案、产品卖点总结、推荐理由,以提升点击和转化。 |
强度:生成文案的点击率/转化率、用户互动时长、内容相关性人工评分。相比固定模板,个性化生成的内容能更好地契合用户即时兴趣和上下文,显著提升信息传递效率和吸引力。 |
条件生成与指令跟随。将个性化内容生成建模为条件文本生成任务,LLM根据给定的详细上下文(指令)生成符合要求的文本。 |
场景:信息流广告文案、电商产品详情页卖点提炼、新闻/视频的个性化标题和摘要、推荐理由生成。 |
C:上下文Prompt,包含用户、物品、场景信息。 |
自回归生成:P(y∥C)=∏tP(yt∥y<t,C)。 |
语言特征:核心能力。模型处理和理解自然语言指令,并生成流畅、连贯、有说服力的文本。 |
离线训练/微调: |
理论基础:个性化沟通与说服理论。有效的沟通需要根据受众的特点调整信息内容和表达方式。LLM实现了沟通内容的实时、大规模个性化。 |
资源估算: |
|
R-0105 |
强化学习 |
资源约束下的推荐 |
用户请求 + 有限库存(如促销券、算力资源)-> 状态(库存、用户价值)-> 动作(分配/不分配)-> 长期收益最大化 |
受限资源分配的深度强化学习 |
1. 问题:推荐系统常需分配有限资源,如优惠券、免费试用额度、限量商品、云计算Spot实例。需决定何时、向谁、分配多少资源以最大化长期收益(如总GMV、利润)。 |
强度:资源利用率、单位资源的产出(ROI)、总利润。相比固定规则或贪心分配,DRL能考虑长期和全局,在满足约束下更优地分配稀缺资源,避免浪费或过早耗尽。 |
资源约束下的序列决策。将受限资源分配建模为带约束的马尔可夫决策过程,通过强化学习学习最优的动态分配策略。 |
场景:促销预算分配、免费体验额度发放、库存清仓、云计算资源调度、广告预算投放。 |
st:状态向量,包含库存 It。 |
约束MDP:在标准MDP基础上增加对轨迹分布的约束。 |
无。 |
离线训练(基于历史日志或模拟器): |
理论基础:收益管理与动态资源分配。在有限资源下,通过差异化定价和分配来最大化收益,是运筹学和收益管理的核心问题。 |
资源估算: |
|
R-0106 |
多臂赌博机 |
产品组合探索 |
新产品/新功能候选集 -> 上下文赌博机 -> Thompson采样 -> 探索性流量分配 -> 潜力产品发现 |
汤普森采样用于新产品冷启动探索 |
1. 动机:新产品/新功能上线初期缺乏数据,需快速探索其潜力(点击率、留存率),以决定是否大规模推广。 |
强度:累计遗憾、潜力产品发现速度、探索效率。Thompson采样能以接近最优的速率探索,快速收敛到真正的高质量新产品,特别适合解决冷启动探索问题。 |
贝叶斯推理与随机化探索。将未知参数视为随机变量,通过不断更新其后验分布来指导决策,采样机制自然地实现了不确定性驱动的探索。 |
场景:新产品/新商家/新内容冷启动、A/B测试的替代方案、功能灰度发布、广告创意测试。 |
θi:臂i(产品)的真实点击率(未知)。 |
Beta分布:共轭先验,便于后验更新。 |
无。 |
在线探索服务: |
理论基础:贝叶斯强盗。将探索视为一个序列决策问题,通过贝叶斯更新来管理不确定性,并以概率匹配的方式选择动作。 |
资源估算: |
|
R-0107 |
集成学习 |
模型融合与稳定性 |
多个基学习器预测 -> Stacking元学习器 -> 加权组合 -> 最终预测 |
基于Stacking的异质模型融合 |
1. 动机:单一模型可能有过拟合或偏好,融合多个异质模型(如LR, GBDT, DNN, FM)能提升泛化能力和稳定性。 |
误差:融合模型的AUC/LogLoss/RMSE。Stacking通常能获得比任何单一基学习器更好的泛化性能,且对噪声和异常更鲁棒,是竞赛和工业界提升模型效果的常用技巧。 |
集成学习与模型平均。多个模型的误差在不同区域可能相互抵消,通过加权平均(线性或非线性)可以降低方差,提高预测精度。 |
场景:对预测精度要求极高的场景,如广告CTR预估竞赛、金融风控、医疗诊断。也用于将新旧模型平滑过渡。 |
Lj:第j个基学习器。 |
交叉验证:用于生成无偏的层1训练特征。 |
无。 |
离线训练: |
理论基础:集成学习理论。多个弱学习器可以组合成一个强学习器。通过结合不同偏差的模型,可以减少整体方差,提高泛化能力。 |
资源估算: |
|
R-0108 |
时间序列 |
销量/热度预测 |
历史时间序列 -> 特征工程 -> 时间序列模型(ARIMA, Prophet, DeepAR) -> 未来销量/热度预测 -> 库存/资源预分配 |
深度自回归模型用于产品需求预测 |
1. 目标:准确预测未来一段时间内(如未来7天)每个产品的需求量(销量、点击量),用于库存管理、采购、资源预留、热门商品预加载等。 |
\mathbf{z}{i, 1:t-1}, \mathbf{x}{i, 1:t}) )。 |
误差:预测的对称平均绝对百分比误差(sMAPE)、分位数损失。准确的预测能显著降低库存成本、缺货损失,并提高用户体验(如热门视频预加载)。 |
概率时间序列预测。将序列的未来值视为随机变量,模型学习其条件概率分布,能同时给出点预测和不确定性估计。 |
场景:零售销量预测、视频点播量预测、云计算资源需求预测、外卖订单量预测。 |
zi,t:产品i在时间t的目标值(如销量)。 |
自回归:当前预测依赖于过去观测和预测。 |
无。 |
离线训练: |
理论基础:需求预测与供应链管理。准确的预测是优化库存、提升服务水平和降低成本的基础。推荐系统可以与预测系统联动,实现供需协同。 |
|
R-0109 |
联邦学习 |
跨企业知识共享 |
企业本地数据 -> 纵向联邦学习 -> 隐私保护下的特征对齐与模型训练 -> 共享知识 -> 联合模型 |
纵向联邦学习用于跨企业联合建模 |
1. 场景:两个企业拥有同一批用户(或企业)的不同特征(如银行有金融数据,电商有消费数据),希望联合建模以提升推荐(如信贷、商品)效果,但数据不能出库。 |
误差:联合模型在测试集上的AUC。VFL允许在数据孤岛间进行安全的特征联合,能显著提升模型效果(尤其是当单方特征不足时),同时满足严格的隐私合规要求。 |
安全多方计算与联邦学习。在保护各方数据隐私的前提下,通过加密协议实现多方数据的联合机器学习。 |
场景:银行与电商联合营销、医疗机构联合研究、政府数据开放应用等涉及敏感数据跨机构合作的场景。 |
DA,DB:参与方A和B的本地数据集。 |
安全求交:隐私集合求交。 |
无。 |
训练流程(以逻辑回归为例): |
理论基础:隐私计算。在数据要素化流通的背景下,联邦学习是实现“数据可用不可见”、释放数据价值的关键技术。 |
资源估算: |
|
R-0110 |
可解释性 |
局部特征归因 |
训练好的复杂模型 -> SHAP/Kernel SHAP -> 局部线性解释 -> 特征贡献值 |
SHAP值用于推荐理由生成 |
1. 动机:深度推荐模型是黑盒,SHAP(SHapley Additive exPlanations)提供一种统一的理论框架来解释单个预测,即每个特征对最终预测值的贡献。 |
S |
! ( |
N |
- |
S |
-1)!}{ |
N |
!} [f{x}(S \cup {j}) - f{x}(S)] ) |
强度:解释的保真度(解释与模型预测的一致性)、用户理解度。SHAP提供了具有坚实理论基础的、一致且可比的局部特征重要性度量,是生成“为什么推荐这个”的理由的有力工具。 |
更多推荐
所有评论(0)