搜索引擎优化原理(搜索引擎工作原理SEO从业者应该了解的基础课程,但是有人却说搜索引擎)
优采云 发布时间: 2021-12-21 12:24搜索引擎优化原理(搜索引擎工作原理SEO从业者应该了解的基础课程,但是有人却说搜索引擎)
搜索引擎的工作原理是SEO从业者应该了解的基础课程,但是有人说搜索引擎的工作原理对于新手来说并不容易理解,因为工作原理太抽象,搜索引擎善变,不一个人可以真正理解搜索是如何工作的。
我想说的是,无论搜索引擎如何变化,一般的收录原则都不会改变:
1、找到网站的网址,下载页面。
2、 判断页面质量是否符合收录标准收录页面,否则删除。
3、 判断收录页面是否更新,更新页面快照。
以上三个是搜索引擎收录页面的基本规则,谷歌都不会违反。那么我们就可以以以上三项为基础,详细解释搜索引擎的工作原理。
一、搜索引擎的组成:
如图1所示:搜索引擎可以分为五个基本部分,包括网络爬虫系统、数据分析系统、数据存储系统、缓存系统和展示系统。
1、 网络爬虫系统:分为检测系统和下载系统。检测系统就是我们通常所说的蜘蛛。当蜘蛛在网上爬行时检测到网站的URL,就会指向该URL 使用下载系统将搜索引擎的页面下载到搜索引擎的服务器,然后将页面交给数据分析系统。
2、数据分析系统:分为数据分析和数据处理两个系统。当数据分析系统从网络爬虫系统获取到下载的页面时,首先进行数据分析,去除不相关的文本或网站重复的内容,对页面文本进行处理,然后判断处理后的页面内容,是否满足收录 标准,交给存储系统,但不删除。
3、存储数据系统:保存收录的页面,然后定期判断存储的页面是否有更新。
4、缓存系统:存储搜索引擎考虑的高价值内容。当用户搜索某个关键词时,经常会看到收录的数量是几千万,而搜索引擎却只显示了1000条。,这意味着只有1000个项目放在缓存系统上,用户可以最快的速度找到他们想要的内容。
5、显示系统:用户搜索返回显示的信息。
这就是搜索引擎系统的组成,那么搜索引擎和收录是怎么找到一个页面的呢?? ?
蜘蛛在网上爬行,遇到一个你的网站的URL,先把这个URL根据网站的权重和相关性提取出来插入到URL队列中,然后判断你的网站@ > 网址是否能解析成功,如果能解析成功,蜘蛛会爬到你那里网站,这里需要说一下,蜘蛛不是直接分析你的网页内容,而是找到你的网站robots 文件,根据你的网站 robots规则判断是否抓取你的页面,如果robots文件不存在,会返回404错误,但搜索引擎会继续抓取你的页面网站 内容。
搜索引擎抓取网页内容后,会简单判断该网页是否达到收录的标准,如果没有,则继续将该网址加入到网址队列中,如果满足收录,网页将被下载内容。
当搜索引擎获取到下载的网页内容时,会提取页面上的URL,继续插入到URL队列中,然后进一步分析页面上的数据,判断网页内容是否符合收录的标准@>,如果达到收录 标准,页面将存储在硬盘中。
当用户搜索某个关键词时,为了减少查询时间,搜索引擎会将一部分相关性较高的内容放到临时缓存区。大家都知道,从计算机的缓存中读取数据比从硬盘中读取要好。获取数据要快得多。因此,搜索引擎只向用户显示缓存的一部分。对于存储在硬盘中的页面,搜索引擎会定期根据网站的权重判断是否有更新,是否达到放入缓存区的标准。如果搜索引擎在判断是否有更新发现网站页面被删除或者页面不符合被收录的条件,也会被删除。
以上就是搜索引擎的组成和页面收录的原理,希望每个seo人都能掌握。
文章转载任景林的博客: