seo优化搜索引擎工作原理( 搜索引擎最重要的是什么?会说是查询结果的准确性 )

优采云 发布时间: 2022-03-13 06:05

  seo优化搜索引擎工作原理(

搜索引擎最重要的是什么?会说是查询结果的准确性

)

  

  搜索引擎最重要的是什么?有人会说是查询结果的准确性,也有人会说是查询结果的丰富程度,但这些都不是搜索引擎最致命的方面。对于搜索引擎来说,最致命的就是查询时间。试想一下,如果你在百度界面查询一个关键词,结果反馈给你需要5分钟,结果一定是你迅速放弃百度。

  为了满足对速度的严格要求(商业搜索引擎的查询时间单位为微秒级),搜索引擎采用缓存的方式来支持查询需求,即查询我们在查询和搜索时得到。结果不是及时的,但已经缓存在他们的服务器上。那么搜索引擎工作的一般流程是怎样的呢?我们可以将其理解为一个三阶段的过程。

  Tianjin seo Chen Yue 仅对三阶段工作流程进行了大致的解释和概述,部分详细的技术细节将与其他文章分开解释。

  一.网站采集

  网页抓取其实就是我们常说的蜘蛛抓取网页。所以对于蜘蛛(谷歌称之为机器人)来说,他们感兴趣的页面分为三类:

  1.蜘蛛从未爬过的新页面。

  2.被蜘蛛爬过但内容发生变化的页面。

  3.被蜘蛛抓取但现在被删除的页面。

  那么如何有效的发现和爬取这三类页面,是蜘蛛编程的初衷和目的。那么这里就有一个问题,蜘蛛爬行的起点。

  只要你的网站没有被严重降级,每一个站长都会发现辛勤工作的蜘蛛通过网站后台的服务器访问你的网站,但是你有没有想过呢?从编程的角度来看,蜘蛛是怎么来的?对此,众说纷纭。有一种说法,蜘蛛的爬行是从*敏*感*词*站(或称高权重站)开始,根据权重从高到低开始的。另一种说法是蜘蛛在 URL 集合中爬行没有明显的顺序。搜索引擎会根据你的网站内容更新的规律,自动计算出何时是爬取你的网站的最佳时间。 ,然后爬行。

  其实对于不同的搜索引擎,它们的爬取起点肯定是不同的。对于百度,笔者更喜欢后者。在百度官博发布的《索引页面链接完成机制的一种方法》一文中,明确指出“蜘蛛会尝试检测网页的发布周期,并以合理的频率检查网页”,由此我们可以推断即在百度的索引库中,针对每一个URL集合,计算出合适的抓取时间和一系列参数,然后抓取对应的站点。

  这里我要说明的是,对于百度来说,site的价值并不是爬过你页面的蜘蛛的价值。比如site:,得到的值并不是大家常说的百度收录值。如果要查询具体的百度收录卷,应在百度提供的站长工具中查询索引号。那么什么是网站?以后我会向你解释这个文章。

  那么蜘蛛是如何发现新链接的呢?它依赖于超链接。我们可以将所有互联网视为有向集的集合。蜘蛛从初始 URL 集 A 开始,沿着网页中的超链接不断发现新的页面。在这个过程中,每找到一个新的 URL 都会与集合 A 中已有的 URL 进行比较。如果是新的 URL,则将其添加到集合 A,如果已经存在于集合 A,则将其丢弃。蜘蛛对一个站点的遍历和爬取策略分为两种,一种是深度优先,一种是广度优先。但是如果是百度这样的商业搜索引擎,它的遍历策略可能会是一些比较复杂的规则,比如域名本身的权重系数,百度自身服务器的矩阵分布等。

  二.预处理

  预处理是搜索引擎中最复杂的部分。基本上大部分排名算法都是在这个环节生效的。那么,在预处理过程中,搜索引擎对数据的处理主要分为以下几个步骤:

  1.提取关键词

  蜘蛛爬取的页面与我们在浏览器中查看的源码相同,通常代码杂乱无章,很多与页面主要内容无关。因此,搜索引擎需要做三件事: 1. 代码去噪。从网页中删除所有代码,只留下文本。 ②去掉非文本关键词。示例包括页面上的导航栏和不同页面共享的其他公共区域的关键词。 ③去掉停用词。停用词是没有特定含义的词,例如“of”、“in”等。

  当搜索引擎获取到这个网页的关键词后,会使用自己的分词系统,将文章分成一个分词列表,然后存入数据库,做*敏*感*词*- 与本文网址一对应。下面我举个例子。

  如果蜘蛛抓取到的页面的URL是****.com/2.html,那么搜索引擎在对该页面进行上述操作后提取出的关键词的集合是p,和p是由关键词p1,p2,...,pn组成的,在百度数据库中,它们之间的关系是一一对应的,如下图。

  

  2.删除重复网页并重新打印网页

  每个搜索引擎识别重复页面的算法不同,但作者认为,如果将去重算法理解为由100个元素组成,那么所有搜索引擎可能有80个元素完全相同。其他20个元素根据不同搜索引擎对seo的不同态度,专门设置了相应的策略。本文仅对搜索引擎的大致流程进行简要说明,并没有说明具体的数学模型。

  3.重要信息分析

  在代码去噪的过程中,搜索引擎并不是简单地去除它们,而是充分利用网页代码(如H标签、强标签)、关键词密度、内链锚文本、等方法来分析此页面上最重要的短语。

  4.网页重要性分析

  通过指向该网页的外部链接锚文本传递的权重值确定该网页的一个权重值,并结合上述“重要信息分析”建立该网页的关键词set p每个 关键词 的排名因子。

  5.反转文件

  如前所述,用户得到的查询结果并不及时,而是已经大致排列在搜索引擎的缓存区中。查询哪个关键词,但是他可以建立一个关键词词库,在处理用户查询请求时,会根据词库进行分词。这样,搜索引擎就可以在用户产生查询行为之前,计算出词库中每个关键词对应的URL排名,大大节省了处理查询的时间。

  简单来说,搜索引擎通过控制器控制蜘蛛爬取,然后用原创数据库保存设置的URL,然后使用索引器控制每个关键词与之后的URL的对应关系保存。并将其保存在索引数据库中。

  举个例子:

  如果将****.com/2.html页面分割成p={p1, p2, p3, ..., pn},在索引数据库中会用下图表示.

  

  上图是为了方便大家理解而制作的。索引数据库实际上是搜索引擎中对性能要求最高的数据库。因为里面的所有因素都会受到算法的影响,所以我认为实际的索引数据库应该是一个由多维数组组成的更复杂的索引表,但是它的主要功能和上图是一样的。

  三、查询服务

  查询服务,顾名思义,就是在搜索界面处理用户的查询请求。搜索引擎构建爬虫,然后分三步处理请求。

  1.根据查询方式用关键词分词

  首先把用户搜索到的关键词分成一个序列关键词,我们暂时用q来表示,那么用户搜索到的关键词q就分成q= {q1, q2, q3, ..., qn}。

  然后根据用户的查询方式,比如所有的词是连在一起的,还是中间有空格等等,根据q中不同的关键词词性,去​​确定所需查询词中的每个词都在查询结果中。在显示中的重要性。

  2.搜索结果排序

  我们有一组搜索词q,q-索引库中每个关键词对应的URL排序,同时根据用户的查询方式和词性,我们也计算出查询中每个关键词的查询结果的展示很重要,那么只需要一点综合排序算法,搜索结果就出来了。

  3.显示搜索结果和文档摘要

  当有搜索结果时,搜索引擎会将搜索结果显示在用户的查看界面上供用户使用。

  在这里,你可以思考两个问题。

  1 在搜索界面,你经常会发现百度显示的摘要是围绕着用户的搜索词。如果我不仅看第一页,而且还翻了一些页面,我会看到由于目标页面本身的一些结果。搜索词不完全收录,百度提取的摘要中的红色词只是搜索词的一部分,所以我们可以理解,如果搜索词没有完全被百度收录,应该先显示在词中分割结果?百度认为更重要的词呢?那么我们能从这些搜索结果中看出一些百度分词算法的蛛丝马迹吗?

  ②有时搜索词在页面出现多次,但是在百度搜索结果页面的网站摘要部分,只会显示部分,通常这部分是连续的,所以我们可以理解为在摘要部分,百度会优先考虑它认为对这个搜索词最重要的页面部分吗?那么我们能不能推断出百度去噪后给不同部分分配权重的算法呢?

  仁者见仁,智者见智。做SEO的朋友应该自己摸索摸索。作者在这里不敢没有孩子。

  四、百度目前的流程漏洞

  请原谅我将此模块描述为进程错误,但我不得不说,在当今的点击器世界中,我认为将其称为错误并没有错。

  也就是说,除了以上三大环节,百度还建立了用户行为模块来影响原有的数据库和索引库。影响原数据库的是百度的快照投诉,主要处理的是网络上的一些暴利行为。这是可以理解的。影响索引库的是用户的点击行为。这种设计本身是可以理解的,但是百度算法的不成熟导致了点击者作弊的猖獗。

  百度的用户行为分析模块非常简单。除了自己投诉的提交条目外,就是采集用户在搜索界面的点击行为。如果这个页面的结果被大多数用户查看,但是没有产生点击,大多数用户选择如果点击第二页甚至更多页面,这种现象会被百度工程师知道,并且会微调算法根据这个方面。如今,百度的算法因行业而异。

  如果前两页中的一个搜索界面被大量用户选中并点击,通常在24小时内,搜索结果会大大提升,甚至提升到首位。

  五、搜索引擎通用流程图(加用户行为分析器)

  

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线