c0d3n4m 发表于 2022-4-20 21:05

电商直播流量分配算法优化总结

一直说要给大家写一篇直播业务的流量分配算法迭代总结,拖了快一年了, 本文总结了19年期间蘑菇街算法团队在直播业务场景上迭代经验。
蘑菇街从16年开始做电商直播,一开始公司内部也没有多少人看好,打开直播会感觉像逛夜市,挺热闹挺有趣的。没有太多人当回事情,我那个时候也没有太在意,组里只有一位同学在支持那边,简单做了个模型在线上跑着,后面由于业务发展特别快,同学也主要在支持业务上了。到了18年我们商城全面wide&deep化后,才开始投入更多的人力。


行业里很少有直播个性化匹配的做法,特别是像蘑菇街这样以人为主的推荐策略,直播场景相对于以前做过的商品、视频等场景,对算法的挑战特别大,我们不敢说做的有多好,和大家探讨下。
电商直播对比商城的业务特点

时效性的问题


[*]蘑菇街主播直播间的每天上新量非常大,大部分的商品在上新之前都没有任何的历史表现数据,且每个款式过的非常快,传统模型中常用的ID类特征变的不太适用了;
[*]直播间内容变化剧烈,就算是同一个主播,每次直播的货品、状态、优惠都会差别较大,不像店铺那样稳定;
用户意图的问题

用户的意图不像货架式电商那么明确。有一部分用户,主播卖什么她都能买,也有不少用户是因为货品买,但有更多的用户,会因为主播当时卖货的表现被激起购买欲望而下单。
蘑菇街的直播,主播和粉丝直接的黏性非常高,不仅仅是卖货,我们调研过很多用户,会把直播间开着当背景音乐,就是想听听主播的声音,非常情感化。
马太问题

这个问题特别好理解,全网都能看到直播马太的问题。这个就导致如果纯看一些效率指标,把几个top主播排好就行了,空间很小。因此,有些公司刚做这个业务,特别是做电商直播,大主播太少的时候,并不建议上什么机器学习模型,人工排都是可以的。
对比货架电商或者视频内容推荐,直播电商个性化的错误容忍率极低,一个badcase造成的损失就会非常明显,也对算法优化造成了更大的困难。
时间段的问题

直播竞争非常激烈,大部分的主播都会尽量长的直播,但主播也是人,每个人开播的时长是有限的,白天的主播和晚上的主播完全就是两个咖位,所以在模型优化上,也要特别注意考虑这个因素;
新人承接问题

蘑菇街不像淘宝以货品为主的直播,因此我们的直播间在新人承接上会天然占劣势。我们肯定不会像淘宝一样突出货品,否则没有任何理由活下去,蘑菇街一直都是突出人,比如用户看到的直播间封面就是主播个人照。好处是一旦用户和主播建立了联系,留存和复购都会很高,坏处是新用户不知道这个直播间是干嘛的。
因此,一个新用户点击的前几个直播间、如何在人和货直接平衡一些就特别重要;
技术路线




重点策略

样本

由于马太、时段、用户意图等各种原因,直播样本的bias特别大,因此第一优先级是如何有效的清洗样本,去bias。举例来讲,构建一些简单的统计特征,会发现在样本分布中非常的不均匀,如果简单用等距分桶,区分性很差。
对用户进行分层,根据一些统计指标,对不同用户的样本做不同处理,特别是新用户。还要考虑样本中白天和晚上的差异。这部分工作没有特别的理论,属于dirty work,需要靠大量的调参和细致的口径梳理、数据校验。
ID类特征的处理


[*]特别要注意重要的ID类的特征值域范围,可以考虑增加一些先验的约束来减少badcase;
[*]单纯的频次过滤在这个场景没有那么有效,针对不同级别的id,截断策略要有所不同,交叉策略也要有所不同;
[*]0值的填充问题要重视,不展开;
loss和特征中增加先验约束

前面已经提到了特征的值域可以通过数据分析增加约束,在针对特别重要的feature,我们可以在loss中增加一些先验约束。这项工作成本比较高,大家可以根据自己的业务情况尝试,但这个方法可以有效的减少badcase产生的概率。
一些重要特殊通过loss约束可以做到单调:


总结

由于直播是公司目前最核心的业务,涉及的面相对比较广,很多技术细节也不方便展开。我们实践的效果是,在初期的时候,停留时长和gmv有明显的提升,但在模型多个迭代中,GMV收益相对于商城比较难以拿到,而在流量结构改善、ctr、停留时长等用户体验指标上有更好的收益。
必须在指出,相对于其他业务,目前的个性化技术在电商直播业务在挑战还是比较大的,产出也相对更难。我们受限于自身技术实力,还有很多想做的事情没有很好的落地,继续努力中,与各位共勉。

JamesB 发表于 2022-4-20 21:10

我们可以在loss中增加一些先验约束。这项工作成本比较高,大家可以根据自己的业务情况尝试,但这个方法可以有效的减少badcase产生的概率。。。。这句话深有感触

APSchmidt 发表于 2022-4-20 21:14

求教这个是怎么做到的,深度模型也可以嘛?

c0d3n4m 发表于 2022-4-20 21:20

直播样本的bias特别大是什么意思可以讲讲吗

RhinoFreak 发表于 2022-4-20 21:29

太赞了。最一线的经验

Ylisar 发表于 2022-4-20 21:34

这个专栏很久没有更新了,惭愧。一方面是去年下半年开始,除了算法团队外,承担了蘑菇街社区项目的PM,在电商中做社区,困难极大,除了面对公司内外部的调整,也是第一次面对二三十个妹子团队,管理问题也很麻烦。app把首页给了社区,投入了大量的资源,每天睡觉都在想怎么做,压力极大,根本没有多余的时间。

另一方面,公司发展也不太好,前几月亲手送走了一批自己的骨干,虽然他们都拿了很好的offer,但总体上不太想继续写蘑菇街的东西了。而且我个人,目前更需要一个实实在在的业务成绩,而不是互联网社区的影响力。

但今天和我们的创始人聊完业务后,闲聊了几句,他建议继续把这个专栏写下去。这个世界并不是每个人都能在阿里头条,有很多很多普通的年轻人需要帮助。就像他当年在阿里做设计,写blog的核心原因就是为了普及UI,至少不会被人叫美工了。而且无论我街现在怎么样,只要东西有价值,还是能帮助很多很多人,就算从佛家渡人的角度,也应该持续做。

感觉讲的很有道理,是我自己陷在了认知盲区中了,恢复更新!

Baste 发表于 2022-4-20 21:40

本质上就是了解你的业务和排序指标,尽可能防止少量异常的商品能够排上来,深度不深度我觉得无所谓。。。。

stonstad 发表于 2022-4-20 21:41

干货 赞赞赞[赞同]

KaaPexei 发表于 2022-4-20 21:46

我也没明白这个问题

TheLudGamer 发表于 2022-4-20 21:47

想问下加先验约束的具体做法是什么样的
页: [1] 2
查看完整版本: 电商直播流量分配算法优化总结