c爬虫抓取网页数据(Linux命令分析之nginx服务器进行分析日志文件所在目录:)
优采云 发布时间: 2021-10-13 04:22c爬虫抓取网页数据(Linux命令分析之nginx服务器进行分析日志文件所在目录:)
概述
最近阿里云经常被各种爬虫访问,有的是搜索引擎爬虫,有的不是。正常情况下,这些爬虫都有UserAgent,我们知道UserAgent是可以伪装的。UserAgent 的本质是 Http 请求头中的一个选项设置。, 您可以通过编程为请求设置任何UserAgent。
下面的Linux命令可以让你清楚的知道蜘蛛的爬行情况。我们分析nginx服务器。日志文件所在目录:/usr/local/nginx/logs/access.log。文件 access.log 应该记录最后一天的日志。首先,请检查日志大小。如果比较大(超过50MB)建议不要使用这些命令进行分析,因为这些命令会消耗CPU,或者更新到分析机上执行,以免影响服务器性能。
常见的蜘蛛域
常用蜘蛛的域名与搜索引擎官网的域名有关,例如:
1、统计百度蜘蛛爬行的次数
cat access.log | grep 百度蜘蛛 | 厕所
最左边的值显示爬网次数。
2、百度蜘蛛详细记录(Ctrl C可终止)
cat access.log | grep 百度蜘蛛
您还可以使用以下命令:
cat access.log | grep 百度蜘蛛 | 尾-n 10
cat access.log | grep 百度蜘蛛 | 头-n 10
注意:只看最后10个或前10个