c爬虫抓取网页数据(一下Linux系统Nginx查看百度蜘蛛爬虫分析的查看)
优采云 发布时间: 2021-12-03 18:25c爬虫抓取网页数据(一下Linux系统Nginx查看百度蜘蛛爬虫分析的查看)
网站SEO优化首先让百度蜘蛛频繁抓取网站信息增加权重和收录。再说说Linux系统Nginx和百度蜘蛛爬虫。本文分析nginx web服务器,具体的日志存放目录:/usr/local/nginx/logs/access.log,注意:文件不能太大,否则命令会非常消耗CPU,导致用户慢慢访问网站。
百度蜘蛛是百度搜索引擎的自动程序。它的功能是访问和采集互联网上的网页、图片、视频等内容,然后根据类别建立索引数据库,以便用户搜索您的网站网页、图片、视频等百度搜索引擎中的内容。
1. 百度蜘蛛爬取次数,具体命令如下:
cat access.log | grep Baiduspider | wc
2. 百度蜘蛛详细记录(Ctrl C可以终止),具体命令如下:
cat access.log | grep Baiduspider
或者
cat access.log | grep Baiduspider | tail -n 10
cat access.log | grep Baiduspider | head -n 10
上面的命令只查看前 10 个或后 10 个。
3. 百度蜘蛛抓取首页的详细记录,具体命令如下:
cat access.log | grep Baiduspider | grep “GET / HTTP”
注:百度蜘蛛对首页更敏感,而谷歌和雅虎蜘蛛更热衷于内页
4. 百度蜘蛛派记录时间分布,具体命令如下:
cat access.log | grep “Baiduspider ” | awk ‘{print $4}'
5. 百度蜘蛛抓取页面按照次数降序排列,具体命令如下:
cat access.log | grep “Baiduspider ” | awk ‘{print $7}' | sort | uniq -c | sort -r
注意:如果将文章中的Baiduspider改为Googlebot,可以查看Google的数据。鉴于大陆的特殊性,大家应该多关注百度的日志。
附件:(Mediapartners-Google)谷歌adsense爬虫详细爬取记录
cat access.log | grep Mediapartners
Googlebot 是指 Google 的机器人或蜘蛛。通常,Google 会让不同的 Googlebot 处理您的网络内容,包括:
1. 抓取文本内容,获取内容并保存在谷歌网页搜索和新闻搜索的数据库中。
2.Googlebot-mobile:它的功能是抓取网页中的文字内容,供手机用户搜索。
3.Googlebot-Image:抓取网页上的图片内容,保存到谷歌图片搜索数据库中。
4.Mediapartners-Google:抓取网页中的文本内容以进行 Google Adsense 分析关键词。Mediapartners-Google 调查只会抓取带有 Google Adsense 的网页。
5.Adsbot-Google:抓取网页中的文字内容,为Google AdWords提供参考。Adsbot-Google 探针只会抓取 Google AdWords 的着陆页。