着陆页关键词搜索引擎优化( 搜索引擎爬虫程序最常见的爬虫类型程序(机器人))
优采云 发布时间: 2022-04-10 15:28着陆页关键词搜索引擎优化(
搜索引擎爬虫程序最常见的爬虫类型程序(机器人))
搜索引擎蜘蛛和各类爬虫程序的爬取量占比
我们在分析网站日志的时候,经常会看到各种各样的爬虫程序(机器人)。除了大名鼎鼎的百度蜘蛛和谷歌机器人,*敏*感*词*还有无数种不同的类型。有些爬虫是良性友好的,比如各种知名搜索引擎,网站监控分析软件等。还有恶意爬虫爬取镜像你的网站,漏洞扫描攻击等等.
据国外知名CND提供商incapsula发布的文章消息,(文章地址:)文章指出,过去整体爬虫程序的爬取量一直在增加年,这主要是由于高级机器人带来的流量增加。
如下图所示,其中,35种不同类型的爬虫(优质爬虫)构成了绝大多数爬虫流量。它们可以分为四类:搜索引擎爬虫、商业爬虫、内容抓取爬虫和监控爬虫。这些爬虫覆盖了互联网 84% 以上的爬虫流量。
搜索引擎爬虫:
最常见的爬虫程序用于对网站内容和相关性进行爬取分析,通过相应的算法计算出关键词排名结果。
Googlebot——作为全球最大的搜索引擎,谷歌的爬虫流量也遥遥领先于其他搜索引擎爬虫,占所有爬虫流量的3.87%(以下简称占比);
Yandex bot - Yandex 在*敏*感*词*最大的搜索引擎,占比:0.85%;
MSN/Bingbot - 微软必应搜索引擎的网站爬虫,占比:0.85%;
雅虎!Slurp bot - 雅虎的搜索引擎爬虫,占比:0.85%;
MJ12Bot - 这个爬虫是 Majestic 的爬虫,用于 SEO 查询和 SEO 反向链接查询,占比:0.26%;
百度蜘蛛——这个大家都很熟悉了。它是中国排名第一的搜索引擎蜘蛛程序。可以看出,与其他搜索引擎相比,爬取的比例还是比较低的,占比:0.26%;
Mail.Ru bot——*敏*感*词*使用的搜索引擎爬虫,占比:011%;
haosou 360 spider - 中国奇虎360的搜索引擎,目前中国第二大爬取流量,占比:0.1%;
sogou spider - 中国搜狗的搜索引擎,占比:0.09%;
Google AdsBot - Google 拥有的爬虫,用于在放置 Google 广告时检查着陆页的质量。
商业服务爬虫
这种爬虫通常被商业付费型公司用来抓取数据以提供服务。
AhrefsBot - Ahrefs 下的爬虫程序,主要用于搜索引擎优化中的反向链接检查,占比:0.99%;
Proximic bot——Proximic用于广告分析和网站内容分析的爬虫程序,占比:0.24%;
SEMrushBot——也是提供SEO数据的平台,包括关键词研究和反向链接,占比:0.23%;
Dotmic DotBot——电商网站平台的爬虫程序,监控识别商品价格等属性,占比:0.08%;
Pinterest bot - Pinterest 是一个社交媒体应用程序,允许用户共享和管理*敏*感*词*,%:0.08%;
YisouSpider - 个人理解的爬虫程序应该是一个搜索引擎爬虫程序。目前搜索引擎是不错的搜索,占比:0.06%;
XoviBot - 也是用于提供搜索引擎优化、搜索排名分析和链接分析的提供商,占比:0.06%;
ADmantX bot——其爬虫程序,作为数据分析提供商,可以帮助营销人员分析在线广告,占比:0.06%;
Grapeshot bot - 其用于分析页面关键词和内容的爬虫程序,占比:0.05%;
Alexa bot——亚马逊旗下Alexa提供的爬虫程序,提供网站流量的数据分析,占比:0.04%;
内容获取爬虫
Facebook 移动应用 - 份额:4.16%;
Android 框架机器人 - 比例:1.99%;
CFNetwork bot - 比例:1.47%;
.NET WebClient - 比例:0.81%;
Facebook 外部点击率 - 百分比:0.64%;
Windows Phone WebClient - 比例:0.64%;
Adobe AIR - 比例:0.24%;
Google Feedfetcher - 比例:0.2%;
Twitter bot - 比例:0.14%;
FeedBurner - 比例:0.1%;
网站监控爬虫
这些机器人用于监控 网站 上的各种性能指标。
WordPress (pingback) - 比例:0.27%;
Paessler Monitor - 比例:0.09%;
UptimeBot - 比例:0.06%;
Site24X7 工具 - 比例:0.05%;
主题演讲——比例:0.05%;