如何抓取网页数据(3.百度spider介绍5.只需两步，正确识别百度蜘蛛)

优采云发布时间: 2021-11-11 19:01

　　最近一直在看SEO相关的资料。我比较好奇的是百度蜘蛛是如何抓取网站的内容的？我在网上搜了一下，找到了从百度搜索学院文章复制过来的那些文章：

　　1.搜索引擎爬虫系统概述（一）

　　2.搜索引擎爬虫系统概述（二）

　　3.搜索引擎检索系统概述

　　4.百度蜘蛛介绍

　　5.如何识别百度蜘蛛

　　6.只需两步即可正确识别百度蜘蛛

　　网上看到最多的一句话是：百度蜘蛛一、爬取、二、存储、三、预处理、四、索引、五、排名。这种描述问题不大，但也无济于事。我只想知道百度蜘蛛是怎么来我的网站爬取内容的，爬取的顺序，爬取的频率？

　　一、网络蜘蛛怎么会来我的网站；

　　网上也有很多关于这个问题的讨论。总结就是：1、指向你的网站外链；2、到站长平台提交网站的url；3、sitemap文件并链接到网站的首页。关于第一点和第二点，网上有很多相关的说明和实践指南，这里不再赘述。我想谈谈我对第三点的理解。首先，我必须为我的站点创建一个站点地图文件，并且这个文件必须放在网站的根目录下。必须可以在没有权限控制的情况下正常访问。. 具体的文档创建请参考各个搜索引擎的指南（如：百度站点地图文档）。还要注意此文件的 URL 和更新率。

https://www.onekbit.com/adminUserAction/toIndex.do

2018-12-23

weekly

1.0

https://www.onekbit.com/FrontPages/systemMgt/aboutus.jsp

2018-12-23

weekly

0.8

https://www.onekbit.com/ViewBlog/toBlogIndex.do

2018-12-23

hourly

1.0

https://www.onekbit.com/ViewBlog/blog/BID20181223100027

2018-12-23

hourly

1.0

　　这里有几个代表性的 URL 来展示。我的初始 URL 很长，收录很多参数。当我把它放在xml文件中时它会报告错误。后面都会优化成这个简单的连接。继续写更多实用价值原创文章，每天频繁更新这个文件。

　　关于这个文件的更新，大家需要多注意观察你在网站上的百度访问日志：

　　123.125.71.38 - - [23/Dec/2018:21:18:36 +0800] "GET /Sitemap.xml HTTP/1.1" 304 3673

　　这是我网站上百度蜘蛛的一行访问日志。请注意，其中的 304 代码表示： 304 未修改 — 文档未按预期进行修改。如果你每天得到的是304，那么对于蜘蛛来说，你没有任何信息可以得到它。自然，它的爬行速度会越来越低，最后也不会来。所以一定要定时定量更新网站原创，让蜘蛛每次都能把信息抢回来，让蜘蛛经常来。最后一点是网站内部链接必须向各个方向延伸，这样蜘蛛才能获得更多的链接给你网站回来。

　　二、网络蜘蛛在网站上爬行的顺序

　　网站目录中网络蜘蛛访问的第一个文件应该是robots.txt。一般情况下，应该根据这个文件是否存在而定。如果不是，则表示可以爬取整个网站。, 爬取取决于文件中的具体限制，这是正常搜索引擎的规则。至于访问robots.txt后应该访问第二个是首页还是sitemap文件，这个在网上有点争议，但是我倾向于认为第二个访问sitemap文件，我用我的< @网站蜘蛛访问日志的最后一段。证明给我看：

　　66.249.64.136 - - [22/Dec/2018:04:10:05 +0800] "GET /robots.txt HTTP/1.1" 404 793

66.249.64.140 - - [22/Dec/2018:04:10:06 +0800] "GET /Sitemap.xml HTTP/1.1" 200 3253

66.249.64.136 - - [22/Dec/2018:04:10:38 +0800] "GET /ViewBlog/blog/BID20181204100011 HTTP/1.1" 200 4331

66.249.64.136 - - [22/Dec/2018:04:10:48 +0800] "GET /ViewBlog/blog/BID20181210100016 HTTP/1.1" 200 4258

66.249.64.138 - - [22/Dec/2018:04:11:02 +0800] "GET /ViewBlog/blog/BID20181213100019 HTTP/1.1" 200 3696

66.249.64.138 - - [22/Dec/2018:04:11:39 +0800] "GET /ViewBlog/blog/BID20181207100014 HTTP/1.1" 200 3595

66.249.64.140 - - [22/Dec/2018:04:12:02 +0800] "GET /ViewBlog/blog/BID20181203100010 HTTP/1.1" 200 26710

66.249.64.138 - - [22/Dec/2018:04:15:14 +0800] "GET /adminUserAction/toIndex.do HTTP/1.1" 200 32040

　　我用的是nslookup 66.249.64.136的IP：

　　nslookup 命令结果

　　从日志来看，首先访问的是robots.txt文件，其次是sitemap文件，修改后的URL添加到sitemap中，第四个好像是首页。从蜘蛛的IP来看，我猜是一种专门用来获取网页链接的，另一种是专门用来抓取网页内容的。百度站长里面有一张图，描述了百度蜘蛛的工作流程：

　　这也可以看出获取url后读取内容。

　　三、网络蜘蛛对网站的抓取频率

　　其实，与网络蜘蛛爬取网站的频率有关的因素上面已经说了。感觉最重要的是定期定量更新网站上原创的内容，并提供网站话题相关信息的质量，其次是在导入链接方面做更多的工作.

　　本文章由onekbit自定义支付导航供稿，原文链接：

0

2021-11-11

如何抓取网页数据

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

如何抓取网页数据(3.百度spider介绍5.只需两步，正确识别百度蜘蛛)

0 个评论

发起人