seo教程：搜索引擎优化入门与进阶(seo教程：搜索引擎优化入门与进阶一、定义与介绍)

优采云发布时间: 2021-10-05 04:04

　　seo教程：搜索引擎优化入门与进阶

　　一、定义与介绍通过各种方式加强搜索引擎蜘蛛与页面之间的关系，提高用户体验，是建立网站的目的。搜索引擎爬虫遵循搜索规则以爬取目标页面，搜索引擎爬虫通过一种统一的机制(称为抓取机制)将获取的页面放到自己的索引库中去。很多网站被爬虫爬取后，会对整个网站进行分析，对于哪些页面可以被放到自己的索引库，建立索引库时会遵循哪些原则是从robots.txt去处理。

　　从机理上讲，索引库是爬虫获取网站存档信息并查找网站元数据的平台，那么很多网站被爬虫爬取后会去分析爬虫爬取到的所有网站，然后获取网站的相关信息(页面名称、url、html代码)。robots.txt说明了网站所有信息，比如爬虫爬取到的哪些页面，页面的url，页面的页面title、keyword、body等。

　　为了防止爬虫爬取到索引库中的页面，索引库是依据robots.txt建立的一个子索引库，但是索引库会有依赖关系，每个站点都要建立一个索引库，也就是说每个网站都要有对应的索引库，网站存档信息信息也会存放到索引库中。

　　二、网站架构

　　三、robots.txt正确打开方式robots.txt定义要被爬虫爬取的网站，每个页面都要定义一个robots.txt。robots.txt能加强爬虫访问网站时的筛选机制。如果将其定义为可以跨域访问、被不同浏览器访问都能正常展示的网站，并且同时内容仅限于自己网站的话，这样爬虫爬取网站的时，很可能会向外界一个连接获取robots.txt中的内容，从而将页面引入索引库。

　　也就是我们看到的很多网站都用的免费空间，本质是就是用robots.txt规定网站内容不允许外界进入的限制，将索引库中的页面全部列出。1.爬虫依据索引库建立爬虫索引库获取robots.txt的信息，然后采取抓取的方式将页面引入自己的索引库中。2.爬虫抓取的路径和方式爬虫抓取页面内容并进行索引时，首先是要根据sitemaps目录树结构（也就是网站域名下的目录结构），按照目录将页面进行提取，在提取的过程中，爬虫会首先进行目录解析，然后爬取目录中的页面。

　　还有的站点，索引库中并没有这个页面，对此页面进行robots.txt进行定义，或者直接http请求到目录下的页面，然后直接抓取内容进行保存。

　　四、抓取（extract）1.抓取的方式本地抓取抓取(通过浏览器或命令行)爬虫通过本地抓取，一般情况下是用来存放生成的伪静态页面，爬虫通过sitemap获取此页面上的url，爬虫依据url和目录定位页面。爬虫本地抓取是比较简单的一种抓取方式，爬虫在本地保存了这个页面的url和url的伪静态，

0

2021-10-05

seo教程：搜索引擎优化入门与进阶

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

seo教程：搜索引擎优化入门与进阶(seo教程：搜索引擎优化入门与进阶一、定义与介绍)

0 个评论

发起人

AI时代内容工厂

seo教程：搜索引擎优化入门与进阶(seo教程：搜索引擎优化入门与进阶一、定义与介绍)

0 个评论

发起人

相关问题