卷一 · 文章

「字节」SID｜TRM：Farewell to Item IDs

2026/5/25 · post

正文

这次已成功抓到正文，不再是仅标题占位。

基本信息

标题：「字节」SID｜TRM：Farewell to Item IDs

来源：微信公众号 / 猫的薛定谔007

原文链接：点击打开原文

抓取补全时间：2026-04-15

原文核心内容摘录

论文信息

论文题目：Farewell to Item IDs: Unlocking the Scaling Potential of Large Ranking Models via Semantic Tokens

论文链接：arXiv PDF

文章摘要式摘录

字节这篇文章讨论的是：在精排模型里引入 SID（semantic item representation / semantic tokens）来弱化传统 item ID 的依赖。

作者强调的核心点是：

Hybrid Tokenization with Generalization–Memorization Trade-off

问题：直接用 RQ-KMeans token 去替换 item ID 时，高频老 item 的 AUC 反而下降。

根因分析：

残差量化更像粗粒度聚类

它不擅长学习 token 组合后的细语义

比如 token A = “蛋糕”，token B = “蜡烛”，但 A+B 隐含的是“生日派对”这种组合知识，单个 token 学不到

解法：用 BPE (Byte Pair Encoding) 生成组合 token，也就是文中说的 Mem-token。

举例：如果某个 item 的 sid 是 \[3,1,6,9,0\]，而 \[3,1\] 和 \[6,9,0\] 是高频组合，就给这些高频组合额外分配独立可学习 embedding。

双 token 体系

Gen-token（泛化 token）：来自 RQ-KMeans 的标准 semantic token，负责跨 item 的知识共享，更利于新 item / 长尾 item

Mem-token（记忆 token）：来自 BPE 的组合 token，负责记住高频 item 的细粒度行为模式，更利于老 item / 热门 item

最后再配合 deep & wide 模型学习最终 embedding。

作者主观看法

作者认为，文中虽然还有：

协同感知的多模态表征

判别 + 生成联合优化

但这些不是最核心贡献点，真正关键还是上面的 hybrid tokenization 设计。

实验部分

原文里提到了：

离线实验

在线实验

但当前自动抓取结果里，实验图和细节表格没有完整结构化抽出来。

备注

如果后面要做更系统的复盘，可以基于这份摘录继续整理成：
通俗拆解版
求职表达版（偏数据工程 / 推荐 / 搜广推）

← Back to Posts