如何搜索引擎优化(结合实际应用谈一谈如何优化搜索引擎排名?(一)的发展)
优采云 发布时间: 2021-10-19 23:12如何搜索引擎优化(结合实际应用谈一谈如何优化搜索引擎排名?(一)的发展)
一、简介
由于最近正在开发一个网络搜索应用,所以需要对搜索引擎的排序算法有一定的了解和研究。因此,对常见的搜索引擎排名算法进行简要分析,并结合实际应用讨论如何优化搜索引擎排名。
二、搜索引擎开发1. 分类目录
最早的搜索引擎采用分类的方法,即人工对网页进行分类,筛选出高质量的网站。被称为第一代搜索引擎。
2. 文本搜索
随着网页数量的增加,手动分类方法不再有效。搜索引擎已经开始进入文本检索时代。通过计算用户查询关键词与网页内容的相关性,返回搜索结果。数量有限,但很难处理关键词的一些恶意重复,以提高他们的搜索引擎排名。这是第二代搜索引擎。
3. 综合分析
文本检索时代之后,出现了一种新的排名形式,通过外链进行排名;当时,外链代表了一个推荐的含义,就是通过每个网站的推荐链接数来判断一个网站的受欢迎程度和重要性。然后搜索引擎结合网页内容的重要性和相似性来提高用户搜索的信息质量。谷歌首先使用了这个模型,它的主要算法是PageRank算法。谷歌不仅第一次使用它而且取得了巨大的成功。这一成果在当时引起了学术界和其他商业搜索引擎的极大关注。后来,基于这一成果,学术界提出了更多改进的链路分析算法。大多数主流搜索引擎都使用分析链接技术算法。
4. 行为分析
第四代搜索引擎开发了以用户为中心的模式。用户每次查询,同一个关键词背后可能有不同的需求。例如,如果用户输入“Apple”,那么作为想要购买iPhone的人对于用户和果农来说,要求是完全不同的。即使是同一个用户,同样的查询关键词,也会因为时间和场合的原因需要搜索不同的内容。主流搜索引擎分析用户行为,如搜索历史,以及权限内的用户行为,如地理位置、网络运营商分析等,对搜索结果进行重新排序,过滤出用户需要的数据。
三、常用搜索引擎算法介绍1. PageRank算法
PageRank算法是由美国斯坦福大学的*敏*感*词*拉里·佩奇和谢尔盖·布林两位谷歌创始人发明的。他们在研究网页排名问题时,借鉴了学术界常用的判断学术论文重要性的方法。引用次数。据认为,也可以根据这种方法来评估网页的重要性。于是PageRank的核心思想诞生了:
PageRank算法的优势在于它给出了网页在互联网上的重要性的全局排名,并且算法的计算过程可以离线完成,有利于快速响应用户请求。但它的缺点在于主题不相关,页面内没有导航链接、广告链接和功能链接的区别,容易对广告页面进行高估。此外,PageRank 算法的另一个缺点是旧页面排名会高于新页面。页面高,因为一个新页面,即使是一个非常好的页面,也不会有很多链接,除非它是一个站点的子站点。这就是 PageRank 需要多种算法组合的原因。
2. HITS 算法
HITS是英文Hyperlink-Induced Topic Search的缩写,翻译过来就是“Hyperlink-Induced Topic Search”。
根据HITS算法,用户输入关键词后,算法对返回的匹配页面计算两个值,一个是Hub Scores,另一个是Authority Scores。这两个值相互依存,相互影响。所谓枢轴值是指页面上所有指向该页面的导出链接的权威值的总和。权限值是指所有导入链接所在页面的枢轴值之和。
上面的定义比较混乱。我们可以简单的说,HITS算法会提取出两个比较重要的页面,分别是pivot page和authority page。中心页面本身可能没有很多导入链接,但有很多权威页面的导出链接。权威页面本身可能没有很多导出链接,但是有很多来自中心页面的导入链接。
典型的中心页面是 网站 目录,例如 Yahoo Directory、Open Directory 或 Hao123。这个高质量的网站目录的作用是指向其他的权威网站,所以称之为枢纽。权威页面有许多入站链接,包括许多来自中心页面的链接。权威页面通常是提供真正相关内容的页面。
HITS 算法是针对特定的查询词,所以称为主题搜索。
HITS 算法的最大缺点是它在查询阶段执行计算,而不是在爬取或预处理阶段。因此,HITS 算法是以牺牲查询排名响应时间为代价的。正因为如此,原创的 HITS 算法在搜索引擎中并不常用。不过,HITS算法的思想很可能会融入到搜索引擎的索引阶段,即根据链接关系寻找具有关键或权威特征的页面。
3. 山顶算法
HillTop是一项对搜索引擎结果进行排序的专利,由谷歌工程师巴拉特于2001年获得。HillTop算法的指导思想与PageRank一致,即以反向链接的数量和质量来决定搜索结果的排名权重。但HillTop认为,只统计具有相同主题的相关文档的链接对搜索者更有价值,即与主题相关的网页之间的链接比与主题无关的链接对权重计算的贡献更大。在 1999-2000 年,当 Bharat 和其他 Google 开发人员开发这种算法时,他们将此类对主题有影响的文档称为“专家”文档,并且仅确定从这些专家文档页面到目标文档的链接。 “的主要部分
Hilltop算法的过程:首先计算出与查询主题最相关的“专家”资源列表;其次,在选定的“专家”集中识别相关链接,并对其进行跟踪以识别相关网页目标;然后根据非相关性“专家”的数量和相关性的排名将目标指向他们。因此,着陆页的分数反映了最中立的专家对查询主题的集体意见。如果不存在这样的专家池,Hilltop 将不会给出结果。
从Hilltop算法的过程可以看出,该算法主要包括两个方面:搜索专家和排序目标。通过对搜索引擎抓取的网页进行预处理,找出专家页面。对于关键词的查询,先在专家中查找,按排序返回结果。
权威页面是最好的专家指向查询主题的页面。专家也可能是更广泛领域或其他领域主题的专家。专家页面中只有部分链接与该主题相关。因此,将查询主题专家的相关出站链接进行合并,以找到查询主题页面识别度较高的页面。
从排名靠前的匹配专家页面和相关的匹配信息中选择专家页面中超链接的子集。特别是选择那些与所有查询相关的链接。根据这些选定的链接,找到它们的目标子集作为与查询主题最相关的网页。该目标子集收录由至少两个非相关专家页面链接到的网页。目标集根据指向他们的专家的综合表现进行排序。
Hilltop在其应用上还存在一些不足。专家页面的搜索和确定在算法中起着关键作用。专家页面的质量决定了算法的准确性;专家页面的质量和公平性在一定程度上难以保证。Hiltop 忽略了大多数非专家页面的影响。在Hiltop的原型系统中,专家页面仅占整个页面的1.79%,并不能完全代表整个互联网。
当 Hiltop 算法无法获得足够多的专家页面子集(少于两个专家页面)时,返回为空,即 Hiltop 适合细化查询排序,但不能被覆盖。这意味着 Hilltop 可以与页面排序算法结合以提高准确性,并不适合作为独立的页面排序算法。Hilltop根据查询主题从专家页面集合中选择与主题相关的子集,并且它也在线运行,这会影响查询响应时间,就像前面提到的HITS算法一样。随着专家页面集合的增加,算法的可扩展性有其不足之处。
4. 直接命中算法
与前两种算法相比,Direct Hit算法是一种注重信息质量和用户反馈的排序方法。它的基本思想是搜索引擎将查询的结果返回给用户,并跟踪用户在搜索结果中的点击。如果返回结果中排名靠前的网页被用户点击,浏览时间较短,用户再次点击其他搜索结果,则可以认为其相关性较差,系统会降低相关性网页的。另一方面,如果网页被用户打开浏览,并且浏览时间较长,则该网页的流行度较高,相应地,系统会增加该网页的相关性。可以看出,在这种方法中,相关度是不断变化的,并且同一个词在不同的时间被检索出来,结果集的排名可能会有所不同。这是一个动态排名。
这种算法的优点是可以节省大量时间,因为用户阅读了更多从搜索结果中过滤出来的符合条件的结果。同时,该算法直接融入用户的反馈信息中,保证页面质量。
但是,统计表明Direct Hit算法只适用于搜索较少的关键词,因为它实际上并没有进行排序,而是一种筛选和提取。搜索数据库很大,关键词很多时候,返回的搜索结果上千,用户无法一一查看。因此,这种方法不能作为主要的排序算法,而是一种很好的辅助排序算法,在很多搜索引擎中仍在使用。
事实上,网页的搜索排名是多种算法综合作用的结果。简单分析一下以上三种算法,Pagerank可以给网站上的所有网页一个重要性排名,但没有针对性和相关性。非常好用,现在PR值作弊已经到了泛滥的地步,所以PR提出了Hilltop算法,对于广大站长做外链建设,起到一定的指导作用。在 Hilltop 算法中,每个领域都会有几个专家页面。如果搜索相关的关键词,搜索引擎会首先寻找专家页面。如果匹配还不够,那么您将在链接到专家页面的下一级页面中找到它。等等。Direct Hit 算法可以作为 Hilltop 和 pagerank 的一个很好的补充。Direct Hit更多的是考虑用户体验的影响,实时更新搜索结果的质量。最能满足搜索用户要求的页面应该是用户。从点击搜索框中的页面链接开始,用户浏览网站超过一定时间将被视为结果页面,更符合用户的搜索需求,长期有效点击,页面在搜索引擎中的排名会相应提高。
四、如何调整搜索引擎的排名
根据以上搜索引擎排名算法的分析,我们可以得到以下关键词:hub、同题、专家页。
以上排序算法基本上都是针对网页链接的排序,即链接相关性。因此,我们可以通过链接来分析和理解关键词。
集线器代表一个特殊的页面,例如页面目录。它的作用主要是有很多导出链接指向专家页面,不一定有很多导入链接;专家页面是指具有许多相同主题的外部链接的页面。通过专家页面,您可以获得有关Gondo 主题的信息,从而获得较高的相关性分数。中心页和专家页的关系一般是专家页有很多指向中心页的外部链接。
以上是链接相关性的基本描述。对于一个基本的搜索引擎,还需要对搜索到的关键词进行匹配,得到文本的相关性分数,然后平衡两个分数,计算出最终的分值,从而得到最终的相关性分数。
搜索引擎还需要对页面的热度和新鲜度进行评分,以避免新页面排名低,导致搜索困难。最后,我们可以计算一个总分,通过对总分进行排序就可以得到最终的搜索排名。
五、通过常用搜索引擎评分机制优化
通过学习常用的搜索引擎评分机制,可以更好的调整和优化搜索引擎的结果排名。
1. GoogleScore
公式如下:
GoogleScore = (KW Usage Score * 0.3) + (Domain Strength * 0.25) +(Inbound Link Score * 0.25) + (用户数据 * 0.1) + (Content QualityScore * 0.1) + (Manual Boosts) – (Automated & Manual Penalties)
从公式中可以看出,公式中占比最大的三项是相关的关键词得分(KW Usage Score)、域名权重(Domain Strength)和出站链接得分(Inbound Link Score),其中占0.8。之后,Content QualityScore一般需要使用机器学习等方法自动评估,而User Data需要权限和长期统计,人工干预需要操作人员进行处理。想想看。
当搜索引擎做出最终的评分决定时,可以遵循上述规则,并可以自适应地调整使用范围,以获得所需的评分机制。
由于本人水平限制,文章中可能有很多错误。也请有识之士在评论中指出:)