搜索引擎优化原理(搜索引擎工作原理SEO从业者应该了解的基础课程,但是有人却说搜索引擎)

优采云 发布时间: 2022-02-10 18:29

  搜索引擎优化原理(搜索引擎工作原理SEO从业者应该了解的基础课程,但是有人却说搜索引擎)

  搜索引擎的工作原理是SEO从业者应该了解的基础课程,但是有人说搜索引擎的工作原理对于新手来说并不容易理解,因为工作原理过于抽象,而且搜索引擎善变,不可以真正理解搜索的工作原理。

  我想说的是,不管搜索引擎怎么变,一般的收录原则是不会变的:

  1、找到网站的URL并下载页面。

  2、判断页面质量是否符合收录标准收录页面,否则删除。

  3、判断收录页面是否更新,更新页面快照。

  以上三项是搜索引擎收录页面的基本规则,百度和谷歌都不会违反。那么我们可以根据以上三项来详细解释一下搜索引擎的工作原理。

  一、搜索引擎的组成:

  

  图1

  如图1所示:搜索引擎可以分为五个基本部分,即网络爬虫系统、数据分析系统、数据存储系统、缓存系统和展示系统。

  1、网页抓取系统:分为检测系统和下载系统。检测系统就是我们通常所说的蜘蛛。当蜘蛛在互联网上爬行时检测到一个网站的URL,它就会指向这个URL。使用下载系统将搜索引擎的页面下载到搜索引擎的服务器,然后将页面交给数据分析系统。

  2、数据分析系统:分为数据分析和数据处理两个系统。当数据分析系统从网页爬虫系统获取下载的页面时,首先进行数据分析,去除无关文本或网站重复内容,对页面文本进行处理,然后判断处理后的页面内容是否符合< @收录 标准,并移交给存储系统,但不删除。

  3、存储数据系统:保存收录的页面,然后定期判断存储的页面是否更新。

  4、缓存系统:存储搜索引擎认为高价值的内容。当用户搜索某个关键词时,往往会看到几千万条收录,但搜索引擎却只显示1000条。,这意味着只有1000条记录放在缓存系统上,用户可以尽快找到他们想要的内容。

  5、显示系统:用户搜索会在显示器上返回信息。

  这是搜索引擎系统的组成,那么搜索引擎和收录是如何发现一个页面的呢?? ?

  

  图 2

  图2,蜘蛛爬取整个互联网,遇到你的网站的一个URL,先把这个URL提取出来,根据网站的权重和相关性插入到URL队列中,然后判断你的网站 这个网址是否能解析成功,如果能解析成功,蜘蛛就会爬到你那里网站,这里需要说一下,蜘蛛不会直接分析你网页的内容,而是找到你的网站robots文件,根据你的网站robots规则判断是否抓取你的页面,如果robots文件不存在会返回404错误,但搜索引擎会继续抓取您的 网站 内容。

  搜索引擎抓取网页内容后,会对网页是否符合收录标准进行简单的判断。如果不符合标准,则会继续将 URL 添加到 URL 队列中。如果符合收录标准,就会下载网页。内容。

  当搜索引擎获取到下载网页的内容后,会提取网页上的URL,继续插入到URL队列中,然后进一步分析网页上的数据,判断网页内容是否符合< @收录 标准。如果满足 收录 标准,则页面存储在硬盘上。

  当用户搜索某个关键词时,搜索引擎为了减少查询时间,会将一些相关性高的内容放到临时缓冲区中。大家都知道,从计算机的缓存中读取数据比从硬盘中读取数据效率更高。获取数据要快得多。所以搜索引擎只向用户显示缓存的一部分。对于存储在硬盘中的页面,搜索引擎会定期根据网站的权重判断是否有更新,是否达到放入缓存区的标准。如果搜索引擎发现网站被删除的页面或者不符合收录条件的页面也会被删除。

  以上就是搜索引擎的组成和页面收录的原理,希望每个seo人员都应该掌握。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线