正文

这次已成功抓到正文,不再是仅标题占位。

基本信息

原文核心内容摘录

论文信息

文章摘要式摘录

字节这篇文章讨论的是:在精排模型里引入 SID(semantic item representation / semantic tokens)来弱化传统 item ID 的依赖

作者强调的核心点是:

Hybrid Tokenization with Generalization–Memorization Trade-off

问题:直接用 RQ-KMeans token 去替换 item ID 时,高频老 item 的 AUC 反而下降。

根因分析:

解法:BPE (Byte Pair Encoding) 生成组合 token,也就是文中说的 Mem-token

举例:如果某个 item 的 sid 是 \[3,1,6,9,0\],而 \[3,1\]\[6,9,0\] 是高频组合,就给这些高频组合额外分配独立可学习 embedding。

双 token 体系

最后再配合 deep & wide 模型学习最终 embedding。

作者主观看法

作者认为,文中虽然还有:

但这些不是最核心贡献点,真正关键还是上面的 hybrid tokenization 设计。

实验部分

原文里提到了:

但当前自动抓取结果里,实验图和细节表格没有完整结构化抽出来。

备注

如果后面要做更系统的复盘,可以基于这份摘录继续整理成:

  1. 通俗拆解版
  2. 求职表达版(偏数据工程 / 推荐 / 搜广推)