方法SEO顾问:搜索引擎网站排序的标准是啥子
优采云 发布时间: 2021-06-16 22:18方法SEO顾问:搜索引擎网站排序的标准是啥子
本文信息本文由Method SEO顾问发表于2014-11-2701:28:18,共1954字,请注明:【百度搜索研发部】以医疗为例说说搜索引擎排序算法的基本原理_【方法SEO顾问】,如果我网站的文章对你有帮助,就来百度口碑给个好评吧!
我们向搜索引擎网站 提交查询。搜索引擎网站会从头到尾列出大量最终结果。对这些最终结果进行排序的标准是什么?这个看似简单的问题是信息检索领域资深专家讨论的核心难题之一。
为了合理解释这个问题,我们先讨论一个比搜索引擎网站更古老的话题:求医。例如,如果我牙痛,我应该去看什么样的医生?如果我只有三个选择:
A 医生,治疗眼病和胃病;
B 医生,他还治疗牙科、胃病和眼病;
C 医生,专攻牙病。
A 医生绝对不在问题中。在B医生和C医生之间,迷宫应该选择C医生,因为他更专注,更能适应我的情况。如果再加一个条件:B医生是专家,有20年的医疗经验,医疗技术精湛,而C医生只有5年的医疗经验。这个问题不好判断。优先选择更敬业的C医生。仍然优先选择医疗技术更先进的B医生,确实成为一个需要慎重衡量的问题。
至少,我们得出了一个结论,我们选择医生需要考虑两个条件:医生的专业知识和对病情的适应程度;医生的医术。大家一定觉得这个说法是毋庸置疑的,自然可以联想到搜索引擎网站sort。搜索引擎网站sort 是不是也一样?既要考虑问题页面的内在实质和用户查询的匹配程度,也要考虑问题页面本身的质量。 但是,如何结合这两个因素来获得一个而不是两个或多个排序标准?如果我们把这两个因素用数字来表示,最终的排序依据是这两个数字相加还是相乘,还是按照决策树的方法组合在一起?如果加起来,就是简单的加法,但还是加了权重?
我们可以根据直觉和经验通过反复试验将这两个因素结合起来。但更好的方法是我们可以找到一个明确的基础,最好将它与算术等扎实的学科结合起来。顺便说一下,根据简单的经验,古代可以用人的总称来建造高楼;但要建造一座数百米高的塔,如果没有建筑力学、材料力学等扎实的学科作为后盾,那也是非常好的。难的。同理,基于简单经验构建的搜索引擎网站算法处理几万个网页应该没问题;但要检索数亿个网页,则需要更扎实的理论基础。
患者在就医时,会优先选择诊断正确、治疗效果好的医生;对于搜索引擎网站,一般按照满足用户对网页需求的概率降序排列。如果用q表示用户进行了特别指定的查询,用d表示特别指定的网页满足用户的需求,则排名依据可以用条件概率表示:
P(dq)
这个简单的条件概率将搜索引擎网站sorting 算法与概率论的坚实学科结合起来,就像一艘配备了指南针在海中航行的船。使用贝叶斯公式,这个条件概率可以表示为:
可以明显看出搜索引擎网站的排名标准由三部分组成:查询本身的属性P(q);网页本身的属性P(d);两个P(qd)之间的一般关系。对于同一个查询,所有网页对应的P(q)都是一样的,因为这个排序可以不用考虑问题,也就是
公式左侧是来自已知用户的查询,询问网页满足用户需求的概率。为了提高搜索引擎网站响应用户查询的性能,需要提前对等待查询的网页进行预处理。预处理的时候只知道网页,不知道用户查询,因为这个需求是逆向计算的,也就是分析每个网页能满足哪些需求,占网页的比例是多少满足需求,即得到公式右边的第一项。 P(qd),相当于上面介绍的医生的专业程度。例如,如果一个网页专门介绍牙病,而另一个网页同时介绍牙病和胃病,则前一页的P(qd)值对于“牙痛”问题会更高。
公式右侧的第二项 P(d) 是网页满足用户需求的概率。它反映了网页本身的质量,与查询无关。如果你想向陌生人推荐一个网页(我们不知道他需要什么),那么 P(d) 就相当于特定网页被推荐的概率。在传统的信息检索格式中,是不考虑这个数量的。例如,传统的向量空间格式和BM25格式旨在根据查询和文档之间的一般关系来获得排名权重。其实这个与询价无关的数量是非常重要的。如果我们用一个网页的访问频率来估计它满足用户需求的概率,我们可以看到,对于两个不同的网页,这个数量是非常不同的:有些网页一天只访问一两次,而有些网页则是一天访问数千次。能够提供如此大的差异量长期以来被传统搜索引擎网站忽视,直到谷歌创建pagerank并让它参与排名。 Pagerank 是对 P(d) 值的一个很好的估计。这一因素的参与,使得搜索引擎网站的影响迅速上升到一个新的高度。
这个公式也回答了上面提出的问题,网页与查询的匹配程度,以及网页本身的质量,这两个因素应该如何结合才能参与排名。这个公式告诉我们无法反驳的原因。如果网页与查询的匹配程度用P(qd)表示,网页本身的质量用P(d)表示,那么就应该按照其产品进行排序。在现代经济活动搜索引擎网站中,需要考虑问题更详细的排名因素。这些因素可能有数百个结果。将它们结合起来更加复杂和困难。