搜索引擎禁止的方式优化网站( 大量的搜索引擎爬虫对网站的影响,你知道吗?)
优采云 发布时间: 2021-09-02 08:05搜索引擎禁止的方式优化网站(
大量的搜索引擎爬虫对网站的影响,你知道吗?)
大量搜索引擎爬虫对网站的影响
1、浪费带宽资源
如果你的网站带宽资源有限,爬虫数量过多,正常用户访问速度慢,原创虚拟主机的连接数有限,带宽资源也有限。在这种情况下,搜索引擎爬虫会受到影响。更明显。
2、过于频繁的爬取会导致服务器报错
如果搜索引擎爬行太频繁,会爬取扫描很多无效页面,甚至服务器在爬取页面时会报502、500、504等内部服务器错误。蜘蛛爬虫还在努力爬行。
3、与网站主题无关的搜索引擎爬虫消耗资源
例如,易淘网的抓取工具是EtaoSpider,目前被各大电商网站屏蔽,拒绝易淘网抓取其产品信息和用户评论。
被禁的原因首先应该是它们之间没有合作互利的关系,而EtaoSpider爬虫是最疯狂爬行的蜘蛛之一。
重点是被EtaoSpider爬取只会消耗你的网站资源,不会给你带来流量,也不会给你带来其他用途。
4、无效的测试抓取
一些搜索引擎开发程序员编写了用于测试爬行的爬虫程序。
5、robots.txt 文件不是万能的
肯定有很多人认为设置robots.txt来屏蔽搜索引擎爬虫,或者允许某些特定的搜索引擎爬虫,可以达到预期的效果。
常规搜索引擎会遵守规则,但不会及时生效。但是,根据我在马海翔的博客上的测试,我发现:其实有些蜘蛛往往不是这样的。先扫描爬取你的页面,忽略你的robots.txt,否则爬取后不一定会保留,或者只是采集互联网行业趋势分析统计的统计信息。
6、不是搜索引擎蜘蛛,而是具有蜘蛛的特性
比如采集software、采集程序、互联网邮箱地址扫描工具、各种SEO分析统计工具、各种网站漏洞扫描工具等,这些爬虫是更正网站No好处!
如何解决搜索引擎蜘蛛抓取无效的问题
各种搜索引擎的蜘蛛爬虫会不断地访问和抓取我们网站的内容,也会消耗一定的网站流量。有时有必要阻止某些蜘蛛访问我们的网站。那么,马海翔将结合自己的经验,与大家分享4个解决无效搜索引擎蜘蛛爬行的方法:
1、只运行常见的搜索引擎蜘蛛抓取
根据空间流量的实际情况,保留几个常用的,屏蔽其他蜘蛛,节省流量。
2、通过服务器防火墙阻止ip
直接从服务器防火墙iptable屏蔽蜘蛛IP段和详细IP。这是最直接有效的拦截方法。
3、WWW 服务器级别限制
比如Nginx、Squid、Lighttpd,直接通过“http_user_agent”拦截搜索引擎爬虫。
4、last robots.txt 文件限制
搜索引擎的国际规则还是要遵守规则的。
标签:搜索引擎蜘蛛,优化整个网站