这次已成功抓到正文,不再是仅标题占位。
基本信息
- 标题:
「字节」SID|TRM:Farewell to Item IDs
- 来源:微信公众号 / 猫的薛定谔007
- 原文链接:点击打开原文
- 抓取补全时间:2026-04-15
原文核心内容摘录
论文信息
- 论文题目:
Farewell to Item IDs: Unlocking the Scaling Potential of Large Ranking Models via Semantic Tokens
- 论文链接:arXiv PDF
文章摘要式摘录
字节这篇文章讨论的是:在精排模型里引入 SID(semantic item representation / semantic tokens)来弱化传统 item ID 的依赖。
作者强调的核心点是:
Hybrid Tokenization with Generalization–Memorization Trade-off
问题:直接用 RQ-KMeans token 去替换 item ID 时,高频老 item 的 AUC 反而下降。
根因分析:
- 残差量化更像粗粒度聚类
- 它不擅长学习 token 组合后的细语义
- 比如 token A = “蛋糕”,token B = “蜡烛”,但 A+B 隐含的是“生日派对”这种组合知识,单个 token 学不到
解法:用 BPE (Byte Pair Encoding) 生成组合 token,也就是文中说的 Mem-token。
举例:如果某个 item 的 sid 是 \[3,1,6,9,0\],而 \[3,1\] 和 \[6,9,0\] 是高频组合,就给这些高频组合额外分配独立可学习 embedding。
双 token 体系
- Gen-token(泛化 token):来自 RQ-KMeans 的标准 semantic token,负责跨 item 的知识共享,更利于新 item / 长尾 item
- Mem-token(记忆 token):来自 BPE 的组合 token,负责记住高频 item 的细粒度行为模式,更利于老 item / 热门 item
最后再配合 deep & wide 模型学习最终 embedding。
作者主观看法
作者认为,文中虽然还有:
- 协同感知的多模态表征
- 判别 + 生成联合优化
但这些不是最核心贡献点,真正关键还是上面的 hybrid tokenization 设计。
实验部分
原文里提到了:
- 离线实验
- 在线实验
但当前自动抓取结果里,实验图和细节表格没有完整结构化抽出来。
备注
如果后面要做更系统的复盘,可以基于这份摘录继续整理成:
- 通俗拆解版
- 求职表达版(偏数据工程 / 推荐 / 搜广推)