如何抓取网页数据(3.百度spider介绍5.只需两步,正确识别百度蜘蛛)

优采云 发布时间: 2021-11-11 19:01

  如何抓取网页数据(3.百度spider介绍5.只需两步,正确识别百度蜘蛛)

  最近一直在看SEO相关的资料。我比较好奇的是百度蜘蛛是如何抓取网站的内容的?我在网上搜了一下,找到了从百度搜索学院文章复制过来的那些文章:

  1.搜索引擎爬虫系统概述(一)

  2.搜索引擎爬虫系统概述(二)

  3.搜索引擎检索系统概述

  4.百度蜘蛛介绍

  5.如何识别百度蜘蛛

  6.只需两步即可正确识别百度蜘蛛

  网上看到最多的一句话是:百度蜘蛛一、爬取、二、存储、三、预处理、四、索引、五、排名。这种描述问题不大,但也无济于事。我只想知道百度蜘蛛是怎么来我的网站爬取内容的,爬取的顺序,爬取的频率?

  一、网络蜘蛛怎么会来我的网站;

  网上也有很多关于这个问题的讨论。总结就是:1、指向你的网站外链;2、到站长平台提交网站的url;3、sitemap文件并链接到网站的首页。关于第一点和第二点,网上有很多相关的说明和实践指南,这里不再赘述。我想谈谈我对第三点的理解。首先,我必须为我的站点创建一个站点地图文件,并且这个文件必须放在网站的根目录下。必须可以在没有权限控制的情况下正常访问。. 具体的文档创建请参考各个搜索引擎的指南(如:百度站点地图文档)。还要注意此文件的 URL 和更新率。

  

https://www.onekbit.com/adminUserAction/toIndex.do

2018-12-23

weekly

1.0

https://www.onekbit.com/FrontPages/systemMgt/aboutus.jsp

2018-12-23

weekly

0.8

https://www.onekbit.com/ViewBlog/toBlogIndex.do

2018-12-23

hourly

1.0

https://www.onekbit.com/ViewBlog/blog/BID20181223100027

2018-12-23

hourly

1.0

  这里有几个代表性的 URL 来展示。我的初始 URL 很长,收录很多参数。当我把它放在xml文件中时它会报告错误。后面都会优化成这个简单的连接。继续写更多实用价值原创文章,每天频繁更新这个文件。

  关于这个文件的更新,大家需要多注意观察你在网站上的百度访问日志:

  123.125.71.38 - - [23/Dec/2018:21:18:36 +0800] "GET /Sitemap.xml HTTP/1.1" 304 3673

  这是我网站上百度蜘蛛的一行访问日志。请注意,其中的 304 代码表示: 304 未修改 — 文档未按预期进行修改。如果你每天得到的是304,那么对于蜘蛛来说,你没有任何信息可以得到它。自然,它的爬行速度会越来越低,最后也不会来。所以一定要定时定量更新网站原创,让蜘蛛每次都能把信息抢回来,让蜘蛛经常来。最后一点是网站内部链接必须向各个方向延伸,这样蜘蛛才能获得更多的链接给你网站回来。

  二、网络蜘蛛在网站上爬行的顺序

  网站 目录中网络蜘蛛访问的第一个文件应该是robots.txt。一般情况下,应该根据这个文件是否存在而定。如果不是,则表示可以爬取整个网站。, 爬取取决于文件中的具体限制,这是正常搜索引擎的规则。至于访问robots.txt后应该访问第二个是首页还是sitemap文件,这个在网上有点争议,但是我倾向于认为第二个访问sitemap文件,我用我的< @网站 蜘蛛访问日志的最后一段。证明给我看:

  66.249.64.136 - - [22/Dec/2018:04:10:05 +0800] "GET /robots.txt HTTP/1.1" 404 793

66.249.64.140 - - [22/Dec/2018:04:10:06 +0800] "GET /Sitemap.xml HTTP/1.1" 200 3253

66.249.64.136 - - [22/Dec/2018:04:10:38 +0800] "GET /ViewBlog/blog/BID20181204100011 HTTP/1.1" 200 4331

66.249.64.136 - - [22/Dec/2018:04:10:48 +0800] "GET /ViewBlog/blog/BID20181210100016 HTTP/1.1" 200 4258

66.249.64.138 - - [22/Dec/2018:04:11:02 +0800] "GET /ViewBlog/blog/BID20181213100019 HTTP/1.1" 200 3696

66.249.64.138 - - [22/Dec/2018:04:11:39 +0800] "GET /ViewBlog/blog/BID20181207100014 HTTP/1.1" 200 3595

66.249.64.140 - - [22/Dec/2018:04:12:02 +0800] "GET /ViewBlog/blog/BID20181203100010 HTTP/1.1" 200 26710

66.249.64.138 - - [22/Dec/2018:04:15:14 +0800] "GET /adminUserAction/toIndex.do HTTP/1.1" 200 32040

  我用的是nslookup 66.249.64.136的IP:

  

  nslookup 命令结果

  从日志来看,首先访问的是robots.txt文件,其次是sitemap文件,修改后的URL添加到sitemap中,第四个好像是首页。从蜘蛛的IP来看,我猜是一种专门用来获取网页链接的,另一种是专门用来抓取网页内容的。百度站长里面有一张图,描述了百度蜘蛛的工作流程:

  

  这也可以看出获取url后读取内容。

  三、 网络蜘蛛对 网站 的抓取频率

  其实,与网络蜘蛛爬取网站的频率有关的因素上面已经说了。感觉最重要的是定期定量更新网站上原创的内容,并提供网站话题相关信息的质量,其次是在导入链接方面做更多的工作.

  本文章由onekbit自定义支付导航供稿,原文链接:

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线