网页抓取 加密html(限制IP地址单位时间的访问次数分析:屏蔽可疑Ip)
优采云 发布时间: 2021-12-16 22:04网页抓取 加密html(限制IP地址单位时间的访问次数分析:屏蔽可疑Ip)
1、限制IP地址每单位时间的访问次数
分析:除了程序访问外,没有任何普通人可以在一秒钟内访问相同的网站5次,而且只有搜索引擎爬虫和恼人的采集器
缺点:一刀切,这也会阻止搜索引擎网站收录
适用于网站:较少依赖搜索引擎网站
采集器如何做:减少单位时间内的访问次数并降低采集
2、遮罩IP
分析:通过后台计数器,记录访客IP和访问频率,人工分析访问记录,屏蔽可疑IP
缺点:似乎没有缺点,但是站长有点忙
适用于网站:所有网站,站长可以知道哪些机器人是谷歌或百度
采集器你将做什么:打游击战!使用IP代理采集一次更改一次,但会降低采集器的效率和网络速度(使用代理)
3、使用JS加密web内容
注意:使用js动态转换加密一些配置信息。使用eval()函数解密
+++++++++++++++++++++++++++++++++++++++++++++++
+++++++++++++++++++++++++++++++++++++++++++++++
分析:无需分析,搜索引擎爬虫和采集器通过杀戮
适用于网站:我讨厌搜索引擎和采集器
采集器会这样做:如果你这么好,他不会选你的
网站版权或一些随机垃圾文本隐藏在4、网页中。这些文本样式是在CSS文件中编写的
分析:"K11"虽然无法阻止,但它会使"K11"之后的内容充满你的"K17"版权描述或一些垃圾文本,因为一般"K0"不会同时"K11"你的CSS文件。这些文字将以不带样式的方式显示
适用于网站:所有网站
采集器你会怎么做:替换受版权保护的文本很容易。对于随机垃圾文本,没有办法。勤勉
5、用户只有在登录后才能访问网站内容
分析:搜索引擎爬虫不会为每种类型的网站设计登录程序。据说采集器可以为网站设计和模拟用户登录和提交表单的行为
适用于网站:我讨厌搜索引擎,我想停止大多数网站
采集器您将做什么:创建一个模块,供用户登录和提交表单
6、使用脚本语言进行分页(隐藏分页)
分析:在同一句话中,搜索引擎爬虫不会分析网站的所有隐藏页面,这会影响搜索引擎的收录。但是,在编写采集规则时,采集用户应分析目标网页代码。那些知道一些脚本知识的人将知道页面的真正链接地址
适用于网站:适用于对搜索引擎依赖性不高的网站,并且采集您的员工不了解脚本知识
"K0"将如何做:应该说"K11"将如何做。无论如何,他将分析您的网页代码和页面脚本。这不需要太多额外的时间
7、防盗链措施(您只能通过本网站的页面连接查看,如request.ServerVariables(“http_reference”))
分析:ASP/'target=''Blank'>ASP和PHP可以读取请求的HTTP\uRefer属性,判断请求是否来自此网站,从而限制采集器。它还限制了搜索引擎爬虫,严重影响了搜索引擎的收录部分防盗链内容的网站
适用于:不要考虑搜索引擎网站@ > @ K10@>/P>