识别User Agent屏蔽一些Web爬虫防采集

优采云 发布时间: 2020-08-20 03:00

  识别User Agent屏蔽一些Web爬虫防采集

  识别User Agent屏蔽一些Web爬虫防采集

  from:%E5%8D%9A%E5%AE%A2/%E8%AF%86%E5%88%ABUser_Agent%E5%B1%8F%E8%94%BD%E4%B8%80%E4%BA%9BWeb%E7%88%AC%E8%99%AB%E9%98%B2%E9%87%87%E9%9B%86

  自从做网站以来,大量手动抓取我们内容的爬虫仍然是个问题,防范采集是个常年任务,这篇是我5年前的博客文章:《Apache中设置屏蔽IP地址和URL网址来严禁采集》,另外,还可以辨识User Agent来鉴别和屏蔽一些采集器,在Apache中设置的代码事例如下:

  RewriteCond %{HTTP_USER_AGENT} ^(.*)(DTS\sAgent|Creative\sAutoUpdate|HTTrack|YisouSpider|SemrushBot)(.*)$

RewriteRule .* - [F,L]

  屏蔽User Agent为空的代码:

  RewriteCond %{HTTP_USER_AGENT} ^$

RewriteRule .* - [F]

  屏蔽Referer和User Agent都为空的代码:

  RewriteCond %{HTTP_REFERER} ^$ [NC]

RewriteCond %{HTTP_USER_AGENT} ^$ [NC]

RewriteRule .* - [F]

  下面把一些可以屏蔽的常见采集软件或则机器爬虫的User Agent的特点关键词列一下供参考:

  其它也可以考虑屏蔽的:

  一般不要屏蔽的主流搜索引擎特点:

  一些常见浏览器或则通用代码也不要轻易屏蔽:

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线