抓取网页数据违法吗(为什么百度蜘蛛经常不存在的网站页面,怎么办?)

优采云 发布时间: 2021-10-09 02:17

  抓取网页数据违法吗(为什么百度蜘蛛经常不存在的网站页面,怎么办?)

  [摘要] 网站 爬取索引对于搜索引擎优化非常重要。如果没有爬虫爬取,就不会有收录。但是我们在做网站爬取测试的时候,经常会看到一些404返回码。但是我们的网站上不存在这些页面

  网站 抓取索引对于搜索引擎优化非常重要。如果没有爬虫爬取,就不会有收录。但是我们在做网站爬取测试的时候,经常会看到一些404返回码。但是这些页面在我们的 网站 上根本不存在。那么,为什么百度蜘蛛经常抓取不存在的网站页面,我该怎么办?

  

  为什么网站会爬取一些不存在的页面?

  导致网站在不存在的页面上被爬取的因素有很多,例如:

  ■页面删除

  在很多情况下,优化过程中需要对网站进行调整,但并不是所有你调整的页面都没有被搜索引擎抓取。有时,你看到的页面没有被索引,但实际上这些页面可能正在被评估,所以蜘蛛在一段时间后仍然会抓取这些页面。

  ■旧域名

  有时候,我们做seo的时候,为了更快的得到搜索排名结果,我们会使用旧域名。但是,旧域名必须有建站历史,否则我们不会选择它。如果它有历史,它会带上自己的蜘蛛,蜘蛛有内存,所以它总是爬一些旧的网址。所以买旧域名有利有弊,但利大于弊。

  ■ 恶意扫描

  当然,有时候,我们的域名没有问题,没有页面被删除,还有一些不存在的页面被抓取。这时候就需要观察这些抓到的IP是否有一定的规律性。在很多情况下,我们的网站会面临各种各样的扫描需求,比如漏洞扫描、文章采集等,如果这些入侵防御系统是常规的,他们很可能会被扫描到漏洞。

  如何处理对不存在的页面的抓取?

  知道了爬行页面不存在的一些原因,如何解决这些问题?

  ■设置机器人

  首先,我们知道这些不存在的页面会被反复抓取,所以我们需要自己采取措施告诉蜘蛛,这些页面是不允许被抓取的。我们可以使用机器人协议来禁止这些页面被抓取。一般来说,这种方法适用于大多数蜘蛛,因为它是所有常规搜索引擎都需要遵循的协议。

  ■提交死链接

  如果仍然存在被重复抓取的问题,可以查看这些页面是否有百度快照。如果有快照,蜘蛛会重复爬取,因为您正在阻止未编入索引的页面,但这些页面已经编入索引。我们可以聚合这些页面URL,通过资源平台提交死链接。

  ■屏蔽ip

  当然,以上方法都是各大搜索引擎蜘蛛开发的策略。如果被非搜索引擎蜘蛛恶意扫描或抓取怎么办?

  在我们看来,最直接的方式就是屏蔽这些IP。可以通过修改服务器中的文件来实现这个功能:

  ① 云主机。下载。htaccess 文件,直接修改、上传、覆盖原文件。

  ②宝塔。

  进入宝塔后台找到安全选项,选择防火墙,在防火墙中选择屏蔽ip。

  ③ 插件。

  现在所有cms系统都引入了各种功能插件。我们可以直接搜索被屏蔽的ip来查找插件并过滤ip。

  以上就是“为什么百度蜘蛛经常抓取不存在的网站页面?”的原因。以及处理方法。如果你的网站有这样的情况,可以按照上面的方法来处理。推荐阅读《什么是网站日志分析?网站日志分析有什么用?》

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线