c爬虫抓取网页数据(一下Linux系统Nginx查看百度蜘蛛爬虫分析的查看)

优采云发布时间: 2021-12-03 18:25

　　网站SEO优化首先让百度蜘蛛频繁抓取网站信息增加权重和收录。再说说Linux系统Nginx和百度蜘蛛爬虫。本文分析nginx web服务器，具体的日志存放目录：/usr/local/nginx/logs/access.log，注意：文件不能太大，否则命令会非常消耗CPU，导致用户慢慢访问网站。

　　百度蜘蛛是百度搜索引擎的自动程序。它的功能是访问和采集互联网上的网页、图片、视频等内容，然后根据类别建立索引数据库，以便用户搜索您的网站网页、图片、视频等百度搜索引擎中的内容。

　　1. 百度蜘蛛爬取次数，具体命令如下：

　　cat access.log | grep Baiduspider | wc

　　2. 百度蜘蛛详细记录（Ctrl C可以终止），具体命令如下：

　　cat access.log | grep Baiduspider

　　或者

　　cat access.log | grep Baiduspider | tail -n 10

cat access.log | grep Baiduspider | head -n 10

　　上面的命令只查看前 10 个或后 10 个。

　　3. 百度蜘蛛抓取首页的详细记录，具体命令如下：

　　cat access.log | grep Baiduspider | grep “GET / HTTP”

　　注：百度蜘蛛对首页更敏感，而谷歌和雅虎蜘蛛更热衷于内页

　　4. 百度蜘蛛派记录时间分布，具体命令如下：

　　cat access.log | grep “Baiduspider ” | awk ‘{print $4}'

　　5. 百度蜘蛛抓取页面按照次数降序排列，具体命令如下：

　　cat access.log | grep “Baiduspider ” | awk ‘{print $7}' | sort | uniq -c | sort -r

　　注意：如果将文章中的Baiduspider改为Googlebot，可以查看Google的数据。鉴于大陆的特殊性，大家应该多关注百度的日志。

　　附件：（Mediapartners-Google）谷歌adsense爬虫详细爬取记录

　　cat access.log | grep Mediapartners

　　Googlebot 是指 Google 的机器人或蜘蛛。通常，Google 会让不同的 Googlebot 处理您的网络内容，包括：

　　1. 抓取文本内容，获取内容并保存在谷歌网页搜索和新闻搜索的数据库中。

　　2.Googlebot-mobile：它的功能是抓取网页中的文字内容，供手机用户搜索。

　　3.Googlebot-Image：抓取网页上的图片内容，保存到谷歌图片搜索数据库中。

　　4.Mediapartners-Google：抓取网页中的文本内容以进行 Google Adsense 分析关键词。Mediapartners-Google 调查只会抓取带有 Google Adsense 的网页。

　　5.Adsbot-Google：抓取网页中的文字内容，为Google AdWords提供参考。Adsbot-Google 探针只会抓取 Google AdWords 的着陆页。

0

2021-12-03

c爬虫抓取网页数据

0 个评论

要回复文章请先登录或注册