搜索引擎如何抓取网页(做过SEO或站长的都应该知道的搜索引擎蜘蛛)

优采云 发布时间: 2022-03-21 14:08

  搜索引擎如何抓取网页(做过SEO或站长的都应该知道的搜索引擎蜘蛛)

  做过SEO或者站长应该知道网站必须网站文章first收录才能排名,网站content收录它与搜索引擎蜘蛛的访问和爬取有很大关系。

  搜索引擎蜘蛛在 FOAF 社区中也被称为网络爬虫、网络机器人和网络追逐者,是根据一定的规则自动从万维网上爬取信息的程序或脚本。此外,它还有一些不常用的名称,如:蚂蚁、自动索引、模拟程序或蠕虫。那么,对于一个网站来说,来网站爬行的搜索引擎蜘蛛越多越好吗?

  一、搜索引擎蜘蛛抓取网页的原理

  搜索引擎用来获取网页的工具是爬虫程序(俗称爬虫)。蜘蛛程序每天都会抓取大量的网页,并为服务器带来一些新的网页信息,用于建立网页索引。

  

  可以说,互联网是由链接组成的。蜘蛛程序沿着这些链接爬行并找到网页信息。蜘蛛程序爬取每个页面。当页面不再有新的链接信息时,它会返回。下次当你再次到达这个页面时,去爬取。

  当给定足够的时间时,他会找到互联网上所有的网页信息(至少是链接),并且在爬取的时候,它会继续向服务器提供信息,所以我们在做 网站 日志分析的时候发现一个网页被搜索引擎的蜘蛛程序爬取并成功爬取了数据,那么这个网页很可能被索引。

  因此,从SEO的角度来看,一个网站搜索引擎优化(SEO)对于提高网页的索引数据(收录量)是非常有利的。

  蜘蛛程序在爬取链接时,也会对爬取的链接进行处理,因为链接需要一个载体(文字、图片或其他信息),找到链接载体并存储链接数据。

  所以我们这里要做的就是尽量增加蜘蛛抓取页面的频率(在前面的网站分析中经常提到),保证我们的网页在搜索引擎数据库中的索引是up-to-日期。

  比如蜘蛛程序今天访问了网站的两个网页,并成功爬取。两周后,当它再次访问这两个网页时,两个网页中的一个更新了,另一个没有。然后,蜘蛛程序可能会在一周内再次访问更新的网页,并在一个月后访问未更新的网页。随着时间的推移,蜘蛛程序会更频繁地抓取更新频繁的网页。为了更新服务器中的索引数据,为用户提供最新的网页信息。

  二、搜索引擎蜘蛛越多越好吗?

  不管是哪个搜索引擎爬虫爬取你的网站页面,都一定会消耗你的网站资源,比如网站的连接数、网络带宽资源(空间流量)、服务器负载,甚至盗链等。所有的搜索引擎蜘蛛都有用吗?

  另外,搜索引擎的爬虫爬取了你的页面数据后,并不一定会采集到数据,只是意味着它“来到这里”留下了痕迹。据马海翔介绍,有些搜索引擎就是来找他们想要的。甚至还有很多针对开发人员的蜘蛛测试。

  对于一个内容丰富、URL结构合理、易于爬取的原创来说,简直是各类爬虫的盛宴。在众多网站的流量构成中,爬虫带来的传入流量远超真实用户访问流量,甚至爬虫流量也比真实流量高出一个数量级。

  对于那些想要提高网站的有效利用率的网站,虽然设置了相当严格的反爬策略,但网站处理的动态请求数还是2倍真实用户访问流量。

  可以肯定地说,当今互联网上很大一部分流量是由爬虫带来的,所以反搜索引擎爬虫是一个值得SEO们长期探索和解决的问题。

  因此,从SEO的角度来看,搜索引擎蜘蛛访问网站的次数越多越好,需要合理屏蔽无效搜索引擎蜘蛛的爬取。

  三、搜索引擎爬虫过多对网站的影响

  既然对于网站,搜索引擎蜘蛛越多越好,具体是什么原因呢?

  1、浪费带宽资源

  如果你的网站带宽资源有限,爬虫数量过多,普通用户访问速度会很慢,原来虚拟主机的连接数有限,带宽资源也有限。在这种情况下,搜索引擎爬虫会受到更大的影响。明显的。

  2、过度爬取会导致服务器报错

  如果搜索引擎爬虫过于频繁,会爬取扫描很多无效页面,甚至爬取页面并抓到服务器报502、500、504等服务器内部错误,而蜘蛛爬虫还在艰难地爬行。

  3、与网站主题无关的搜索引擎爬虫消耗资源

  例如,易淘网的爬取工具是易淘蜘蛛,目前被各大电商购物网站屏蔽,拒绝易淘网爬取其商品信息和用户评论内容。

  封禁的原因首先应该是它们之间没有合作互利的关系,而EtaoSpider爬虫是最疯狂的蜘蛛之一。根据马海翔对部分电商的测试网站EtaoSpider的每日爬取量是“Baiduspider”、“360 Spider(360 Spider)”、“SOSO Spider(Sosospider)”等主流蜘蛛爬虫的数倍,而且远不止这些。

  关键是被爬取的 EtaoSpider 只会消耗你的 网站 资源,它不会给你带来流量,或者其他任何对你有用的东西。

  4、无效的测试爬取

  一些搜索引擎开发程序员编写爬虫程序来测试爬虫。

  5、robots.txt 文件不是灵丹妙药

  想必有很多人认为在robots.txt中屏蔽搜索引擎爬虫就够了,或者让一些特定的搜索引擎爬虫达到你期望的效果。

  正规的搜索引擎会遵守规则,但不会及时生效,但是根据我在马海翔博客上的测试,发现其实有些蜘蛛往往不是这样的,先扫描爬取你的页面,忽略你的robots.txt,也有可能被抓取后不一定保留,或者只是采集互联网行业趋势分析统计的统计信息。

  6、不是搜索引擎蜘蛛,但有蜘蛛的特性

  比如采集软件、采集程序、网上扫描邮件地址的工具、各种SEO分析统计工具、各种网站漏洞扫描工具等,这些爬虫对 网站 没有好处!

  四、如何解决无效搜索引擎蜘蛛的问题

  各种搜索引擎的蜘蛛爬虫会不断的访问和抓取我们网站的内容,也会消耗网站一定的流量。有时有必要阻止一些蜘蛛访问我们的网站。接下来,马海翔将结合自己的经验与大家分享4种解决无效搜索引擎蜘蛛的方法:

  1、只运行常见的搜索引擎蜘蛛

  根据空间流量的实际情况,预留几个常用的,屏蔽其他蜘蛛以节省流量。

  2、通过服务器防火墙阻止 ip

  直接从服务器防火墙iptable屏蔽蜘蛛IP段和详细IP是最直接有效的方法。

  3、WWW 服务器级别的限制

  例如,Nginx、Squid、Lighttpd 直接通过“http_user_agent”拦截搜索引擎爬虫。

  4、最后一个 robots.txt 文件有限制

  搜索引擎的国际规则还是要遵守规则的。

  五、主要搜索引擎蜘蛛的名字

  

  为了帮助大家找到适合自己的搜索引擎蜘蛛网站,马海翔还特意整理了一份各大搜索引擎蜘蛛的最新名字列表(大家要注意写法的不同,尤其是大小写):

  1、百度蜘蛛:百度蜘蛛

  网上资料 百度蜘蛛名字有BaiduSpider、baiduspider等,就是老历书了。百度蜘蛛的最新名称是百度蜘蛛。通过查看马海翔的博客日志,我还发现百度旗下的蜘蛛Baiduspider-image是抓图片的蜘蛛。

  常见的百度同类型蜘蛛有:Baiduspider-mobile(抓wap)、Baiduspider-image(抓图)、Baiduspider-video(抓视频)、Baiduspider-news(抓新闻)。

  2、谷歌蜘蛛:谷歌机器人

  这个争议较小,但也有人说它属于GoogleBot。Google 蜘蛛的最新名称是“compatible; Googlebot/2.1;”。不过,我也在马海翔的博客日志中找到了Googlebot-Mobile。名称是抓取 wap 内容。

  3、360Spider:360Spider

  它是一种非常“勤奋”的蜘蛛。

  4、SOSO 蜘蛛:Sosospider

  5、雅虎蜘蛛:“雅虎!啜饮中国”或雅虎!

  6、有道蜘蛛:有道机器人,有道机器人

  7、搜狗蜘蛛:搜狗新闻蜘蛛

  此外,马海翔还发现,搜狗蜘蛛还包括:搜狗网络蜘蛛、搜狗inst蜘蛛、搜狗蜘蛛2、搜狗博客、搜狗新闻蜘蛛、搜狗猎户蜘蛛。

  8、MSN 蜘蛛:msnbot,msnbot-media

  9、bing 蜘蛛:bingbot,在线(兼容;bingbot/2.0;)

  10、搜索蜘蛛:YisouSpider

  11、Alexa 蜘蛛:ia_archiver

  12、EasouSpider:EasouSpider

  13、即时蜘蛛:JikeSpider

  14、网络蜘蛛:EtaoSpider

  根据上面的爬虫,选择几个常用的允许爬取,其余的都可以被机器人拦截爬取。如果你的空间流量还够用,那就没必要堵了。流量紧张时,保留一些常用的。阻止其他蜘蛛以节省流量。

  网站 的管理者应该最清楚那些蜘蛛爬到 网站 的有用价值。

  此外,马海翔还发现了YandexBot、AhrefsBot、ezooms.bot等蜘蛛。据说这些蜘蛛是外来的,对中文网站用处不大。

  其实对于我们站长来说,有效和常用的搜索引擎只有少数,只要在robots.txt文件中允许放出常用的搜索引擎蜘蛛,其他爬虫用通配符(*)禁止即可. 扔掉吧,或者单独屏蔽一些蜘蛛(具体方法我也在马海翔的博客《网站机器人文件常见问题》一文中给大家做了详细的介绍,有兴趣的可以阅读)。

  马海翔博客评论:

  对于搜索引擎来说,搜索引擎蜘蛛用于不断采集最新数据,主要是提供它访问过的页面的副本,然后搜索引擎可以索引结果页面以提供快速访问。蜘蛛还可以在网络上用于自动执行检查链接和验证 html 代码等任务;它们还可以用于抓取特定类型信息的页面,例如抓取电子邮件地址(通常用于垃圾邮件)。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线