seo优化搜索引擎工作原理(搜索引擎爬虫的工作流程是SEO的基础篇章,不懂技术也能看懂搜索引擎)
优采云 发布时间: 2021-11-27 17:21seo优化搜索引擎工作原理(搜索引擎爬虫的工作流程是SEO的基础篇章,不懂技术也能看懂搜索引擎)
搜索引擎爬虫的工作流程是SEO的基础篇章,也是每个从事SEO工作的同事都应该掌握的必备知识。下面我画了一张图,让你在不懂技术的情况下也能了解搜索引擎爬虫的工作流程。我们一起来谈谈吧。
话不多说,上图:
搜索引擎爬虫爬取流程图
如上图所示,阅读以下内容时请与我一起思考。
所谓的*敏*感*词*网址是指开头选择的网址地址。在大多数情况下,网站的首页、频道页等内容较为丰富的页面会作为*敏*感*词*URL;
然后将这些*敏*感*词*网址放入要爬取的网址列表中;
爬虫从要爬取的URL列表中一一读取。在读取URL的过程中,会通过DNS解析URL,将URL地址转换为网站服务器IP地址+相对路径;
接下来把这个地址给web下载器(所谓的web下载器,顾名思义就是负责下载web内容的模块);
对于下载到本地的网页,也就是我们网页的源代码,一方面必须将该网页存储在网页库中,另一方面会从下载的网页中再次提取URL地址.
新提取的URL地址会首先在爬取的URL列表中进行比较,以检查该网页是否被爬取。
如果网页还没有被爬取,则新的URL地址放在待爬取的URL列表的末尾,等待被爬取。
像这样循环工作,直到爬虫队列为空,爬虫就完成了整个爬虫过程。
然后,下载的网页都会进入一定的分析。分析完索引后,我们可以看到收录的结果。
对于真正的爬虫来说,哪些页面先爬,哪些页面后爬,哪些页面不爬是有一定的策略的。下面介绍一个比较通俗的爬虫爬取过程,作为一个SEO的我们,知道这个就够了。