百度搜索引擎优化原理(搜索引擎工作原理SEO从业者应该了解的基础课程，但是有人却说搜索引擎)

优采云发布时间: 2021-09-14 17:07

　　搜索引擎的工作原理是SEO从业者应该了解的基础课程。不过也有人说搜索引擎的工作原理对于新手来说并不容易理解，因为工作原理太抽象，搜索引擎善变，不管是谁都无法真正理解搜索是如何工作的。

　　我想说的是，不管搜索引擎怎么变，一般的收录原则都不会变：

　　1、找到网站的网址并下载页面。 2、判断页面质量是否达到收录标准收录页面，否则删除。 3、判断收录页面是否更新，更新页面快照。

　　以上三个规则是搜索引擎收录页面的基本规则，百度和谷歌都不会违反。那么我们就可以以以上三点为基础，详细说明搜索引擎的工作原理。

　　一、搜索引擎的组成：

　　如图1所示：搜索引擎可以分为五个基本部分，包括网络爬虫系统、数据分析系统、数据存储系统、缓存系统和展示系统。

　　1、网络爬虫系统：分为检测系统和下载系统。检测系统就是我们通常所说的蜘蛛。当蜘蛛在互联网上爬行时检测到网站的URL，就会将指向该URL的页面使用下载系统下载到搜索引擎的服务器，然后将页面交给数据分析系统.

　　2、数据分析系统：分为数据分析和数据处理两个系统。当数据分析系统从网络爬虫系统获取到下载的页面时，首先进行数据分析去除不相关的文本或网站Duplicate内容，对页面文本进行处理，然后判断处理后的页面内容是否达到收录标准，传递给存储系统，但不删除。

　　3、Storage Data System：保存收录的页面，然后定期判断存储的页面是否有更新。

　　4、Cache 系统：存储搜索引擎考虑的高价值内容。用户搜索某个关键词时，经常看到收录几千万，但搜索引擎只显示1000条。也就是说，缓存系统上只放置了1000个条目，用户可以最快的速度找到自己想要的内容。

　　5、display system：用户搜索返回到显示器的信息。

　　这就是搜索引擎系统的组成，那么搜索引擎和收录怎么找到一个页面呢？ ? ?

　　蜘蛛在网上爬行，遇到一个你网站的网址，首先根据网站的权重和相关性提取该网址插入到网址队列中，然后判断你的网站网址是否可以使用分析成功。如果分析成功，蜘蛛会爬到你网站。这里需要说明的是，蜘蛛并不会直接分析你的网页内容，而是去寻找你的网站robots文件，根据你的网站robots规则来决定是否抓取你的页面。如果robots文件不存在，会返回404错误，但搜索引擎会继续抓取你的网站内容。

　　搜索引擎抓取网页内容后，会简单判断网页是否达到收录标准。如果不符合收录标准，继续将URL加入URL队列。如果遇到收录，就会下载网页内容。

　　当搜索引擎获取到下载的网页内容时，会提取网页上的网址，继续插入到网址队列中，然后进一步分析网页上的数据，判断网页内容是否符合收录标准。如果达到收录标准，则将页面存储在硬盘中。

　　当用户搜索某个关键词时，为了减少查询时间，搜索引擎会将部分相关性较高的内容放到临时缓存区。大家都知道，从计算机的缓存中读取数据比从硬盘中读取数据要好。读取数据要快得多。因此，搜索引擎只向用户显示部分缓存。对于存储在硬盘中的页面，搜索引擎会根据网站的权重判断是否有更新，是否达到放入缓存的标准。如果搜索引擎在判断是否有更新时发现网站页面被删除或者该网页不符合收录的条件，也会被删除。

　　以上就是搜索引擎的构成和页面收录的原理，希望每个seo人都掌握。

　　文章任景林博客转载：

0

2021-09-14

百度搜索引擎优化原理

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

百度搜索引擎优化原理(搜索引擎工作原理SEO从业者应该了解的基础课程，但是有人却说搜索引擎)

0 个评论

发起人