排得更好VS估得更准VS搜的更全「推荐、广告、搜索」算法 ... - 第2页 - 技术讨论 Technology Answers - Unity开发者联盟

RedZero9 发表于 2021-11-17 20:02

非常感谢你的解释。搜索这个东西，一旦涉及到个性化，很难用人工评判。比如我在大众点评上搜火锅，给我推荐个特别远的海底捞，算不算相关呢。我特别好奇，如果纯人工评价，得多大的工作量才能有统计显著性。我们公司的人工评价很不稳定，很难真正衡量算法好不好。如果想上线一个新策略，该如何评价呢？用点击作为rel，还是人工评价作为rel？

DomDomm 发表于 2021-11-17 20:07

这是一个多目标的问题，为啥要列入相关性中？什么叫做相关？以传统图文搜索来说，我说一下我的理解，就是query和文本的语义要有90%以上的相似性，因为如果考虑视频（推荐大行其道，多模态还得讲究文本和视频的相关，这个是另一个层面的难点）会更复杂，指标这个东西，承载的东西过多，就会更任务带来更多的复杂性。那么回到你刚才的那个问题，我们搜火锅，其实想要的是一个相关的结果，但是怎么选择，那个不是相关性要考虑的范畴，给你举个例子，第六季自助餐厅，全北京就那么几家，如果你在北京周边搜，那么按照距离排序，这个是你整体最终的融合排序公式里面列入了地点了，后面都可以调，相关性衡量的不是这些太个性化的问题，个性化是CTR要解决的问题。。。我再问你一个问题“小猪佩奇”，我们到底是要出动画片？还是要出电影？还是要出玩具？本身是一个多样需求的问题，如果统一放入相关性，恰恰就把一个多目标问题又变成了一个单目标问题，多样性问题，交给用户自己抉择，和相关性无关。我们再来说人工评估，人工评估很难，因为是先验，那么就要有一套标准去约束这些人，据我所知，各家做相关性的人工评估规则的那个文档，以百度为例，大约几百页吧，如果人工评估bias太大，一个原因是规则的问题（规则定好）；当然还有人的问题，人的问题就是需要反复培训，不断适配的过程，多少置信？通用搜索一般大考，线上随机400query，然后长尾随机400query，直接side by side，基本上问题的形态是啥样子都会很清晰，随机 400更多刻画的是你的系统是否有效（偏短、更偏向自己本身资源），真正搜索的能力，是你的长尾的那400，因为长尾意味着冷门，这也是说一家搜索公司是否牛逼，看长尾，这也是为啥百度要做千亿索引，Google要做万亿索引的原因。另外做相关性的同学，内部也要拉齐认知，不是随随便便做个小流量就能上线。之前凯华（百度T11），将小流量引入了百度，有一天Robin问大搜的同学，为啥看小流量指标越来越正，但是我的体验确越来越差，一味的看小流量，本身也会有bias，搜索这个东西，人的感知最重要。。。一切case出发，拆解问题，然后定位问题（召回问题？排序问题？多样性问题？权威问题？时效问题？）。千万不要把你的目标和相关性这个最纯粹的目标给混淆了，这个是做搜索的大忌，给你举个例子，为啥要有阿拉丁（你搜一个天气，给你展示一个卡片），满足用户诉求。

rustum 发表于 2021-11-17 20:07

非常感谢您的耐心解答！趁这个机会，再请教大佬两个问题：
1. 粗排和精排的模型主要目标都是让相关性强的排在前面。模型参数很多，仅仅靠人工标注的相关性似乎不足以训练一个大模型。您觉得该如何做pairwise、listwise训练呢？是不是把点击也利用起来？
2. 如果小流量AB测试不可靠，有什么办法可以快速验证特征、模型、策略的有效性呢？

XGundam05 发表于 2021-11-17 20:10

先谈精排模型，首先线上最终的排序公式是一个融合公式，融合了多种目标，那么我们以相关性来聊，相关性的精排更多的在考察兼顾term匹配和topic匹配，分别对应的是关键词命中和语义命中，刚才其实我有和你说过，我们可以拿清洗后（不清洗，会把模型的上限拉低）的点击数据来做pre train，然后人工标注的数据上去fine tune，核心就是要做到有档有序，常见相关性分n档（百度分5档，更细化），如果人为是一个softmax，那么就蛋疼了，肯定不能这样弄（不同query下的表现不一样，容易跪），pairwise和listwise对应的值没有参考性，因为搜索还要在意分档位，3分就应该比2分排在前面。粗排模型，其实就是一个序的工程，核心就是将足够好的样本尽可能的送入精排，精排模型复杂，粗排是挡在召回和精排中的，但是粗排最终学的肯定不是相关性，因为如果一味追求相关性，万一遇到作弊咋整，因为线上除去相关性还有别的目标，所以就是一个大融合的模型，这个就是pairwise和listwise都行，做法和传统的粗排有点类似了再谈指标，验证离线AUC，没啥问题，直接上小流量，小流量正（相关性的小流量不能看消费指标，而是要关注有点、换q这种），然后送人工评估。。。小流量只是参考，自己抓diff，然后自评一下，就能知道自己的策略到底咋样了，越往上模块越好弄，越底层越难弄，因为依赖太多。

rustum 发表于 2021-11-17 20:12

所以搜广推三选一的话？搜>广>推？

页: 1 [2]

Unity开发者联盟's Archiver