maltadirk 发表于 2022-9-26 17:29

推荐算法的主观记录之一:粗排

从事推荐算法工作七八年了,乐在其中。它考验你的算法理论、经验、业务理解和工程能力,并将你的得与失,相对公平的通过ab指标来衡量,从而获得自我价值的满足
日常工作中有很多零散的经验、知识点和思考,本系列的目的将其记录整理下来,便于自身记忆,也便于进一步深入。
万事开头难,先从相对容易梳理的粗排开始写。
一、粗排

粗排不是一个必需品。它常常是业务发展到某个阶段后,为了提高召回的优化空间,减轻精排的计算压力,应运而生的。它的作用有时要伴随着召回量的扩充才能证明。
在当下这个时间点(2022年),一个默认的粗排基线大概是双塔模型。user和item侧多层mlp,得到各自emb后,cosine->蒸馏->sigmoid->logloss;serving时item侧缓存,user侧实时计算,大致如此,无需赘言。在此基础上我们进一步讨论几个业界的优化方向。
1)精排蒸馏
2)数据增强
3)突破双塔
4)模型剪枝
5)多样性
6)粗排和召回的区别是啥
页: [1]
查看完整版本: 推荐算法的主观记录之一:粗排