RedZero9 发表于 2021-11-17 20:02

非常感谢你的解释。搜索这个东西,一旦涉及到个性化,很难用人工评判。比如我在大众点评上搜火锅,给我推荐个特别远的海底捞,算不算相关呢。我特别好奇,如果纯人工评价,得多大的工作量才能有统计显著性。我们公司的人工评价很不稳定,很难真正衡量算法好不好。如果想上线一个新策略,该如何评价呢?用点击作为rel,还是人工评价作为rel?

DomDomm 发表于 2021-11-17 20:07

这是一个多目标的问题,为啥要列入相关性中?什么叫做相关?以传统图文搜索来说,我说一下我的理解,就是query和文本的语义要有90%以上的相似性,因为如果考虑视频(推荐大行其道,多模态还得讲究文本和视频的相关,这个是另一个层面的难点)会更复杂,指标这个东西,承载的东西过多,就会更任务带来更多的复杂性。那么回到你刚才的那个问题,我们搜火锅,其实想要的是一个相关的结果,但是怎么选择,那个不是相关性要考虑的范畴,给你举个例子,第六季自助餐厅,全北京就那么几家,如果你在北京周边搜,那么按照距离排序,这个是你整体最终的融合排序公式里面列入了地点了,后面都可以调,相关性衡量的不是这些太个性化的问题,个性化是CTR要解决的问题。。。我再问你一个问题“小猪佩奇”,我们到底是要出动画片?还是要出电影?还是要出玩具?本身是一个多样需求的问题,如果统一放入相关性,恰恰就把一个多目标问题又变成了一个单目标问题,多样性问题,交给用户自己抉择,和相关性无关。我们再来说人工评估,人工评估很难,因为是先验,那么就要有一套标准去约束这些人,据我所知,各家做相关性的人工评估规则的那个文档,以百度为例,大约几百页吧,如果人工评估bias太大,一个原因是规则的问题(规则定好);当然还有人的问题,人的问题就是需要反复培训,不断适配的过程,多少置信?通用搜索一般大考,线上随机400query,然后长尾随机400query,直接side by side,基本上问题的形态是啥样子都会很清晰,随机 400更多刻画的是你的系统是否有效(偏短、更偏向自己本身资源),真正搜索的能力,是你的长尾的那400,因为长尾意味着冷门,这也是说一家搜索公司是否牛逼,看长尾,这也是为啥百度要做千亿索引,Google要做万亿索引的原因。另外做相关性的同学,内部也要拉齐认知,不是随随便便做个小流量就能上线。之前凯华(百度T11),将小流量引入了百度,有一天Robin问大搜的同学,为啥看小流量指标越来越正,但是我的体验确越来越差,一味的看小流量,本身也会有bias,搜索这个东西,人的感知最重要。。。一切case出发,拆解问题,然后定位问题(召回问题?排序问题?多样性问题?权威问题?时效问题?)。千万不要把你的目标和相关性这个最纯粹的目标给混淆了,这个是做搜索的大忌,给你举个例子,为啥要有阿拉丁(你搜一个天气,给你展示一个卡片),满足用户诉求。

rustum 发表于 2021-11-17 20:07

非常感谢您的耐心解答!趁这个机会,再请教大佬两个问题:
1. 粗排和精排的模型主要目标都是让相关性强的排在前面。模型参数很多,仅仅靠人工标注的相关性似乎不足以训练一个大模型。您觉得该如何做pairwise、listwise训练呢?是不是把点击也利用起来?
2. 如果小流量AB测试不可靠,有什么办法可以快速验证特征、模型、策略的有效性呢?

XGundam05 发表于 2021-11-17 20:10

先谈精排模型,首先线上最终的排序公式是一个融合公式,融合了多种目标,那么我们以相关性来聊,相关性的精排更多的在考察兼顾term匹配和topic匹配,分别对应的是关键词命中和语义命中,刚才其实我有和你说过,我们可以拿清洗后(不清洗,会把模型的上限拉低)的点击数据来做pre train,然后人工标注的数据上去fine tune,核心就是要做到有档有序,常见相关性分n档(百度分5档,更细化),如果人为是一个softmax,那么就蛋疼了,肯定不能这样弄(不同query下的表现不一样,容易跪),pairwise和listwise对应的值没有参考性,因为搜索还要在意分档位,3分就应该比2分排在前面。粗排模型,其实就是一个序的工程,核心就是将足够好的样本尽可能的送入精排,精排模型复杂,粗排是挡在召回和精排中的,但是粗排最终学的肯定不是相关性,因为如果一味追求相关性,万一遇到作弊咋整,因为线上除去相关性还有别的目标,所以就是一个大融合的模型,这个就是pairwise和listwise都行,做法和传统的粗排有点类似了 再谈指标,验证离线AUC,没啥问题,直接上小流量,小流量正(相关性的小流量不能看消费指标,而是要关注有点、换q这种),然后送人工评估。。。小流量只是参考,自己抓diff,然后自评一下,就能知道自己的策略到底咋样了,越往上模块越好弄,越底层越难弄,因为依赖太多。

rustum 发表于 2021-11-17 20:12

所以搜广推三选一的话?搜>广>推?
页: 1 [2]
查看完整版本: 排得更好VS估得更准VS搜的更全「推荐、广告、搜索」算法 ...