Personal Portal

正文

来源：腾讯广告技术公众号原文链接：https://mp.weixin.qq.com/s/Okt86iA2rKvB532mZv_l4Q配套解说：https://www.feishu.cn/wiki/P26nwnKLqitd5pkONTdceEELncg论文：TokenFormer: Unify the Multi-Field and Sequential Recommendation Worlds主题：推荐系统 / 多域特征 / 序列推荐 / Transformer / 广告推荐

摘要

推荐系统长期沿着两条相对独立的路线发展：一条是多领域类别特征之间的特征交互建模，另一条是用户历史行为序列建模。TokenFormer 试图把这两类信号放进一个统一的 Token 流里建模，但文章指出，简单统一会带来一个问题：序列坍塌传播（Sequential Collapse Propagation, SCP）。

SCP 的核心意思是：稀疏、低维、异构的静态 Field 特征与高维序列特征直接混合后，可能会“污染”序列表征，使序列特征的有效维度下降，导致模型虽然看起来统一了，但序列行为信息被压扁了。

为了解决这个问题，TokenFormer 提出两项关键机制：

BFTS 注意力机制：Bottom-Full-Top-Sliding，底层使用全量因果注意力做全局融合，顶层使用逐层收缩的滑动窗口注意力做局部时序提纯。

NLIR 非线性交互表示：Non-Linear Interaction Representation，在注意力输出上引入单侧非线性乘法门控，提高表征判别力，并缓解维度坍塌。

原文要点摘录

1. 问题背景

现代工业推荐系统需要同时处理：

静态稀疏非序列特征，例如用户画像、上下文、物品属性；

用户动态历史行为序列；

当前候选目标属性。

传统做法常通过异构子网络、专家模块或 late-fusion 把它们拼起来。近期 InterFormer、OneTrans、HyFormer、Kunlun 等方法尝试统一架构，但很多仍保留不同模块之间的解耦。

TokenFormer 的目标是用一个单一、同构的计算范式，原生建模：field-field、sequence-sequence、sequence-field 以及目标侧相关交互。

2. 序列坍塌传播 SCP

文章认为，统一建模最大的坑不是“能不能拼起来”，而是拼起来以后序列表征会不会被静态特征拖垮。

在标准 Transformer 中，把序列特征与非序列特征直接联合建模，虽然可能提升表征判别力，但会带来更陡峭的奇异值谱衰减和更低的有效秩。这说明序列表征正在向低维空间坍塌。

TokenFormer 把这种现象称为 Sequential Collapse Propagation。

3. 统一输入流

TokenFormer 把以下信息汇聚成一条 Token 流：

静态稀疏非序列特征；

用户行为序列 Token；

待推荐候选目标属性。

模型不再为不同特征类型设计显式 Type Embedding，而是在统一 Token 流中使用 RoPE 注入相对位置信息，并用特殊分隔符 Token 标记不同片段边界。

4. BFTS：底层全量，顶层滑动

BFTS 的结构直觉很清楚：

浅层需要全局视野，让 Field、序列、目标候选充分交互；

深层不应继续反复看远处静态特征，否则会引入结构性噪声；

因此深层改用窗口逐层收缩的滑动注意力，聚焦局部时序动态。

实验中，2F2S（2 层全量 + 2 层滑动）表现最好。相比全量注意力 4F，AUC 提升 0.85‰，同时 GFLOPs 降低 201.0‰。反过来，如果先滑动后全量（2S2F），AUC 会下降 6.18‰。

5. NLIR：非线性乘法门控

NLIR 在注意力输出上加一个由当前输入计算得到的门控投影，用 Sigmoid 后对 attention output 做逐元素乘法调制。

文章强调，这不是普通的被动缩放门控，而是一种显式的非线性交互，用来：

增强高阶特征交互；

提升表征判别力；

维持特征空间的秩；

防止低维静态特征把序列行为压成低维表达。

6. 训练设定

TokenFormer 支持两种推荐训练范式：

User-Centric Setting：类似大模型 Next-Token 预测，对完整用户轨迹进行密集自回归监督。

New Impression Only Setting：更接近工业精排，只对当前最新曝光候选物品计算 Loss，历史行为只作为上下文先验。

7. 实验结论

公开数据集 KuaiRand-27K 上：

TokenFormer-Tiny 在 AUC 上较 Transformer 提升 5.00‰；

较 HSTU-Ultra 提升 2.05‰；

全序列预测通常优于只优化单点目标，说明时序监督信号有价值。

消融实验：

单独引入 NLIR，AUC 提升 4.87‰；

单独引入 BFTS，AUC 提升 4.91‰；

若所有层都用滑动窗口注意力，AUC 下降 36.35‰，说明浅层全局交互不可省。

工业线上：

仅全量注意力 TokenFormer 变体较 DLRM 基线 AUC 下降 0.16%；

加入 BFTS 后 AUC 较基线提升 0.14%；

完整 BFTS + NLIR 后，AUC 较线上工业基线提升 0.22%；

微信视频号广告信息流 A/B 测试中，GMV 提升 4.03%。

原文链接

https://mp.weixin.qq.com/s/Okt86iA2rKvB532mZv_l4Q