正文

来源:腾讯广告技术公众号原文链接:https://mp.weixin.qq.com/s/Okt86iA2rKvB532mZv_l4Q配套解说:https://www.feishu.cn/wiki/P26nwnKLqitd5pkONTdceEELncg论文:TokenFormer: Unify the Multi-Field and Sequential Recommendation Worlds主题:推荐系统 / 多域特征 / 序列推荐 / Transformer / 广告推荐

摘要

推荐系统长期沿着两条相对独立的路线发展:一条是多领域类别特征之间的特征交互建模,另一条是用户历史行为序列建模。TokenFormer 试图把这两类信号放进一个统一的 Token 流里建模,但文章指出,简单统一会带来一个问题:序列坍塌传播(Sequential Collapse Propagation, SCP)

SCP 的核心意思是:稀疏、低维、异构的静态 Field 特征与高维序列特征直接混合后,可能会“污染”序列表征,使序列特征的有效维度下降,导致模型虽然看起来统一了,但序列行为信息被压扁了。

为了解决这个问题,TokenFormer 提出两项关键机制:

原文要点摘录

1. 问题背景

现代工业推荐系统需要同时处理:

传统做法常通过异构子网络、专家模块或 late-fusion 把它们拼起来。近期 InterFormer、OneTrans、HyFormer、Kunlun 等方法尝试统一架构,但很多仍保留不同模块之间的解耦。

TokenFormer 的目标是用一个单一、同构的计算范式,原生建模:field-field、sequence-sequence、sequence-field 以及目标侧相关交互。

2. 序列坍塌传播 SCP

文章认为,统一建模最大的坑不是“能不能拼起来”,而是拼起来以后序列表征会不会被静态特征拖垮。

在标准 Transformer 中,把序列特征与非序列特征直接联合建模,虽然可能提升表征判别力,但会带来更陡峭的奇异值谱衰减和更低的有效秩。这说明序列表征正在向低维空间坍塌。

TokenFormer 把这种现象称为 Sequential Collapse Propagation

3. 统一输入流

TokenFormer 把以下信息汇聚成一条 Token 流:

模型不再为不同特征类型设计显式 Type Embedding,而是在统一 Token 流中使用 RoPE 注入相对位置信息,并用特殊分隔符 Token 标记不同片段边界。

4. BFTS:底层全量,顶层滑动

BFTS 的结构直觉很清楚:

实验中,2F2S(2 层全量 + 2 层滑动)表现最好。相比全量注意力 4F,AUC 提升 0.85‰,同时 GFLOPs 降低 201.0‰。反过来,如果先滑动后全量(2S2F),AUC 会下降 6.18‰。

5. NLIR:非线性乘法门控

NLIR 在注意力输出上加一个由当前输入计算得到的门控投影,用 Sigmoid 后对 attention output 做逐元素乘法调制。

文章强调,这不是普通的被动缩放门控,而是一种显式的非线性交互,用来:

6. 训练设定

TokenFormer 支持两种推荐训练范式:

7. 实验结论

公开数据集 KuaiRand-27K 上:

消融实验:

工业线上:

原文链接

https://mp.weixin.qq.com/s/Okt86iA2rKvB532mZv_l4Q