c爬虫抓取网页数据(一下Linux系统Nginx查看百度蜘蛛爬虫分析的查看)

优采云 发布时间: 2021-12-03 18:25

  c爬虫抓取网页数据(一下Linux系统Nginx查看百度蜘蛛爬虫分析的查看)

  网站SEO优化首先让百度蜘蛛频繁抓取网站信息增加权重和收录。再说说Linux系统Nginx和百度蜘蛛爬虫。本文分析nginx web服务器,具体的日志存放目录:/usr/local/nginx/logs/access.log,注意:文件不能太大,否则命令会非常消耗CPU,导致用户慢慢访问网站。

  百度蜘蛛是百度搜索引擎的自动程序。它的功能是访问和采集互联网上的网页、图片、视频等内容,然后根据类别建立索引数据库,以便用户搜索您的网站网页、图片、视频等百度搜索引擎中的内容。

  1. 百度蜘蛛爬取次数,具体命令如下:

  cat access.log | grep Baiduspider | wc

  2. 百度蜘蛛详细记录(Ctrl C可以终止),具体命令如下:

  cat access.log | grep Baiduspider

  或者

  cat access.log | grep Baiduspider | tail -n 10

cat access.log | grep Baiduspider | head -n 10

  上面的命令只查看前 10 个或后 10 个。

  3. 百度蜘蛛抓取首页的详细记录,具体命令如下:

  cat access.log | grep Baiduspider | grep “GET / HTTP”

  注:百度蜘蛛对首页更敏感,而谷歌和雅虎蜘蛛更热衷于内页

  4. 百度蜘蛛派记录时间分布,具体命令如下:

  cat access.log | grep “Baiduspider ” | awk ‘{print $4}'

  5. 百度蜘蛛抓取页面按照次数降序排列,具体命令如下:

  cat access.log | grep “Baiduspider ” | awk ‘{print $7}' | sort | uniq -c | sort -r

  注意:如果将文章中的Baiduspider改为Googlebot,可以查看Google的数据。鉴于大陆的特殊性,大家应该多关注百度的日志。

  附件:(Mediapartners-Google)谷歌adsense爬虫详细爬取记录

  cat access.log | grep Mediapartners

  Googlebot 是指 Google 的机器人或蜘蛛。通常,Google 会让不同的 Googlebot 处理您的网络内容,包括:

  1. 抓取文本内容,获取内容并保存在谷歌网页搜索和新闻搜索的数据库中。

  2.Googlebot-mobile:它的功能是抓取网页中的文字内容,供手机用户搜索。

  3.Googlebot-Image:抓取网页上的图片内容,保存到谷歌图片搜索数据库中。

  4.Mediapartners-Google:抓取网页中的文本内容以进行 Google Adsense 分析关键词。Mediapartners-Google 调查只会抓取带有 Google Adsense 的网页。

  5.Adsbot-Google:抓取网页中的文字内容,为Google AdWords提供参考。Adsbot-Google 探针只会抓取 Google AdWords 的着陆页。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线