这是一个多目标的问题,为啥要列入相关性中?什么叫做相关?以传统图文搜索来说,我说一下我的理解,就是query和文本的语义要有90%以上的相似性,因为如果考虑视频(推荐大行其道,多模态还得讲究文本和视频的相关,这个是另一个层面的难点)会更复杂,指标这个东西,承载的东西过多,就会更任务带来更多的复杂性。那么回到你刚才的那个问题,我们搜火锅,其实想要的是一个相关的结果,但是怎么选择,那个不是相关性要考虑的范畴,给你举个例子,第六季自助餐厅,全北京就那么几家,如果你在北京周边搜,那么按照距离排序,这个是你整体最终的融合排序公式里面列入了地点了,后面都可以调,相关性衡量的不是这些太个性化的问题,个性化是CTR要解决的问题。。。我再问你一个问题“小猪佩奇”,我们到底是要出动画片?还是要出电影?还是要出玩具?本身是一个多样需求的问题,如果统一放入相关性,恰恰就把一个多目标问题又变成了一个单目标问题,多样性问题,交给用户自己抉择,和相关性无关。我们再来说人工评估,人工评估很难,因为是先验,那么就要有一套标准去约束这些人,据我所知,各家做相关性的人工评估规则的那个文档,以百度为例,大约几百页吧,如果人工评估bias太大,一个原因是规则的问题(规则定好);当然还有人的问题,人的问题就是需要反复培训,不断适配的过程,多少置信?通用搜索一般大考,线上随机400query,然后长尾随机400query,直接side by side,基本上问题的形态是啥样子都会很清晰,随机 400更多刻画的是你的系统是否有效(偏短、更偏向自己本身资源),真正搜索的能力,是你的长尾的那400,因为长尾意味着冷门,这也是说一家搜索公司是否牛逼,看长尾,这也是为啥百度要做千亿索引,Google要做万亿索引的原因。另外做相关性的同学,内部也要拉齐认知,不是随随便便做个小流量就能上线。之前凯华(百度T11),将小流量引入了百度,有一天Robin问大搜的同学,为啥看小流量指标越来越正,但是我的体验确越来越差,一味的看小流量,本身也会有bias,搜索这个东西,人的感知最重要。。。一切case出发,拆解问题,然后定位问题(召回问题?排序问题?多样性问题?权威问题?时效问题?)。千万不要把你的目标和相关性这个最纯粹的目标给混淆了,这个是做搜索的大忌,给你举个例子,为啥要有阿拉丁(你搜一个天气,给你展示一个卡片),满足用户诉求。