来源:腾讯广告技术公众号原文链接:https://mp.weixin.qq.com/s/Okt86iA2rKvB532mZv_l4Q配套解说:https://www.feishu.cn/wiki/P26nwnKLqitd5pkONTdceEELncg论文:TokenFormer: Unify the Multi-Field and Sequential Recommendation Worlds主题:推荐系统 / 多域特征 / 序列推荐 / Transformer / 广告推荐
摘要
推荐系统长期沿着两条相对独立的路线发展:一条是多领域类别特征之间的特征交互建模,另一条是用户历史行为序列建模。TokenFormer 试图把这两类信号放进一个统一的 Token 流里建模,但文章指出,简单统一会带来一个问题:序列坍塌传播(Sequential Collapse Propagation, SCP)。
SCP 的核心意思是:稀疏、低维、异构的静态 Field 特征与高维序列特征直接混合后,可能会“污染”序列表征,使序列特征的有效维度下降,导致模型虽然看起来统一了,但序列行为信息被压扁了。
为了解决这个问题,TokenFormer 提出两项关键机制:
- BFTS 注意力机制:Bottom-Full-Top-Sliding,底层使用全量因果注意力做全局融合,顶层使用逐层收缩的滑动窗口注意力做局部时序提纯。
- NLIR 非线性交互表示:Non-Linear Interaction Representation,在注意力输出上引入单侧非线性乘法门控,提高表征判别力,并缓解维度坍塌。
原文要点摘录
1. 问题背景
现代工业推荐系统需要同时处理:
- 静态稀疏非序列特征,例如用户画像、上下文、物品属性;
- 用户动态历史行为序列;
- 当前候选目标属性。
传统做法常通过异构子网络、专家模块或 late-fusion 把它们拼起来。近期 InterFormer、OneTrans、HyFormer、Kunlun 等方法尝试统一架构,但很多仍保留不同模块之间的解耦。
TokenFormer 的目标是用一个单一、同构的计算范式,原生建模:field-field、sequence-sequence、sequence-field 以及目标侧相关交互。
2. 序列坍塌传播 SCP
文章认为,统一建模最大的坑不是“能不能拼起来”,而是拼起来以后序列表征会不会被静态特征拖垮。
在标准 Transformer 中,把序列特征与非序列特征直接联合建模,虽然可能提升表征判别力,但会带来更陡峭的奇异值谱衰减和更低的有效秩。这说明序列表征正在向低维空间坍塌。
TokenFormer 把这种现象称为 Sequential Collapse Propagation。
3. 统一输入流
TokenFormer 把以下信息汇聚成一条 Token 流:
- 静态稀疏非序列特征;
- 用户行为序列 Token;
- 待推荐候选目标属性。
模型不再为不同特征类型设计显式 Type Embedding,而是在统一 Token 流中使用 RoPE 注入相对位置信息,并用特殊分隔符 Token 标记不同片段边界。
4. BFTS:底层全量,顶层滑动
BFTS 的结构直觉很清楚:
- 浅层需要全局视野,让 Field、序列、目标候选充分交互;
- 深层不应继续反复看远处静态特征,否则会引入结构性噪声;
- 因此深层改用窗口逐层收缩的滑动注意力,聚焦局部时序动态。
实验中,2F2S(2 层全量 + 2 层滑动)表现最好。相比全量注意力 4F,AUC 提升 0.85‰,同时 GFLOPs 降低 201.0‰。反过来,如果先滑动后全量(2S2F),AUC 会下降 6.18‰。
5. NLIR:非线性乘法门控
NLIR 在注意力输出上加一个由当前输入计算得到的门控投影,用 Sigmoid 后对 attention output 做逐元素乘法调制。
文章强调,这不是普通的被动缩放门控,而是一种显式的非线性交互,用来:
- 增强高阶特征交互;
- 提升表征判别力;
- 维持特征空间的秩;
- 防止低维静态特征把序列行为压成低维表达。
6. 训练设定
TokenFormer 支持两种推荐训练范式:
- User-Centric Setting:类似大模型 Next-Token 预测,对完整用户轨迹进行密集自回归监督。
- New Impression Only Setting:更接近工业精排,只对当前最新曝光候选物品计算 Loss,历史行为只作为上下文先验。
7. 实验结论
公开数据集 KuaiRand-27K 上:
- TokenFormer-Tiny 在 AUC 上较 Transformer 提升 5.00‰;
- 较 HSTU-Ultra 提升 2.05‰;
- 全序列预测通常优于只优化单点目标,说明时序监督信号有价值。
消融实验:
- 单独引入 NLIR,AUC 提升 4.87‰;
- 单独引入 BFTS,AUC 提升 4.91‰;
- 若所有层都用滑动窗口注意力,AUC 下降 36.35‰,说明浅层全局交互不可省。
工业线上:
- 仅全量注意力 TokenFormer 变体较 DLRM 基线 AUC 下降 0.16%;
- 加入 BFTS 后 AUC 较基线提升 0.14%;
- 完整 BFTS + NLIR 后,AUC 较线上工业基线提升 0.22%;
- 微信视频号广告信息流 A/B 测试中,GMV 提升 4.03%。
原文链接
https://mp.weixin.qq.com/s/Okt86iA2rKvB532mZv_l4Q