搜索引擎禁止的方式优化网站( 大量的搜索引擎爬虫对网站的影响，你知道吗？)

优采云发布时间: 2021-09-02 08:05

　　搜索引擎禁止的方式优化网站(

大量的搜索引擎爬虫对网站的影响，你知道吗？)

　　大量搜索引擎爬虫对网站的影响

　　1、浪费带宽资源

　　如果你的网站带宽资源有限，爬虫数量过多，正常用户访问速度慢，原创虚拟主机的连接数有限，带宽资源也有限。在这种情况下，搜索引擎爬虫会受到影响。更明显。

　　2、过于频繁的爬取会导致服务器报错

　　如果搜索引擎爬行太频繁，会爬取扫描很多无效页面，甚至服务器在爬取页面时会报502、500、504等内部服务器错误。蜘蛛爬虫还在努力爬行。

　　3、与网站主题无关的搜索引擎爬虫消耗资源

　　例如，易淘网的抓取工具是EtaoSpider，目前被各大电商网站屏蔽，拒绝易淘网抓取其产品信息和用户评论。

　　被禁的原因首先应该是它们之间没有合作互利的关系，而EtaoSpider爬虫是最疯狂爬行的蜘蛛之一。

　　重点是被EtaoSpider爬取只会消耗你的网站资源，不会给你带来流量，也不会给你带来其他用途。

　　4、无效的测试抓取

　　一些搜索引擎开发程序员编写了用于测试爬行的爬虫程序。

　　5、robots.txt 文件不是万能的

　　肯定有很多人认为设置robots.txt来屏蔽搜索引擎爬虫，或者允许某些特定的搜索引擎爬虫，可以达到预期的效果。

　　常规搜索引擎会遵守规则，但不会及时生效。但是，根据我在马海翔的博客上的测试，我发现：其实有些蜘蛛往往不是这样的。先扫描爬取你的页面，忽略你的robots.txt，否则爬取后不一定会保留，或者只是采集互联网行业趋势分析统计的统计信息。

　　6、不是搜索引擎蜘蛛，而是具有蜘蛛的特性

　　比如采集software、采集程序、互联网邮箱地址扫描工具、各种SEO分析统计工具、各种网站漏洞扫描工具等，这些爬虫是更正网站No好处！

　　如何解决搜索引擎蜘蛛抓取无效的问题

　　各种搜索引擎的蜘蛛爬虫会不断地访问和抓取我们网站的内容，也会消耗一定的网站流量。有时有必要阻止某些蜘蛛访问我们的网站。那么，马海翔将结合自己的经验，与大家分享4个解决无效搜索引擎蜘蛛爬行的方法：

　　1、只运行常见的搜索引擎蜘蛛抓取

　　根据空间流量的实际情况，保留几个常用的，屏蔽其他蜘蛛，节省流量。

　　2、通过服务器防火墙阻止ip

　　直接从服务器防火墙iptable屏蔽蜘蛛IP段和详细IP。这是最直接有效的拦截方法。

　　3、WWW 服务器级别限制

　　比如Nginx、Squid、Lighttpd，直接通过“http_user_agent”拦截搜索引擎爬虫。

　　4、last robots.txt 文件限制

　　搜索引擎的国际规则还是要遵守规则的。

　　标签：搜索引擎蜘蛛，优化整个网站

0

2021-09-02

搜索引擎禁止的方式优化网站

0 个评论

要回复文章请先登录或注册