c爬虫抓取网页数据(Linux命令分析之nginx服务器进行分析日志文件所在目录：)

优采云发布时间: 2021-10-13 04:22

　　概述

　　最近阿里云经常被各种爬虫访问，有的是搜索引擎爬虫，有的不是。正常情况下，这些爬虫都有UserAgent，我们知道UserAgent是可以伪装的。UserAgent 的本质是 Http 请求头中的一个选项设置。, 您可以通过编程为请求设置任何UserAgent。

　　下面的Linux命令可以让你清楚的知道蜘蛛的爬行情况。我们分析nginx服务器。日志文件所在目录：/usr/local/nginx/logs/access.log。文件 access.log 应该记录最后一天的日志。首先，请检查日志大小。如果比较大（超过50MB）建议不要使用这些命令进行分析，因为这些命令会消耗CPU，或者更新到分析机上执行，以免影响服务器性能。

　　常见的蜘蛛域

　　常用蜘蛛的域名与搜索引擎官网的域名有关，例如：

　　1、统计百度蜘蛛爬行的次数

　　cat access.log | grep 百度蜘蛛 | 厕所

　　最左边的值显示爬网次数。

　　2、百度蜘蛛详细记录（Ctrl C可终止）

　　cat access.log | grep 百度蜘蛛

　　您还可以使用以下命令：

　　cat access.log | grep 百度蜘蛛 | 尾-n 10

　　cat access.log | grep 百度蜘蛛 | 头-n 10

　　注意：只看最后10个或前10个

0

2021-10-13

c爬虫抓取网页数据

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

c爬虫抓取网页数据(Linux命令分析之nginx服务器进行分析日志文件所在目录：)

0 个评论

发起人

AI时代内容工厂

c爬虫抓取网页数据(Linux命令分析之nginx服务器进行分析日志文件所在目录：)

0 个评论

发起人

相关问题