网页抓取 加密html(限制IP地址单位时间的访问次数分析:屏蔽可疑Ip)

优采云 发布时间: 2021-12-16 22:04

  网页抓取 加密html(限制IP地址单位时间的访问次数分析:屏蔽可疑Ip)

  1、限制IP地址每单位时间的访问次数

  分析:除了程序访问外,没有任何普通人可以在一秒钟内访问相同的网站5次,而且只有搜索引擎爬虫和恼人的采集

  缺点:一刀切,这也会阻止搜索引擎网站收录

  适用于网站:较少依赖搜索引擎网站

  采集器如何做:减少单位时间内的访问次数并降低采集

  2、遮罩IP

  分析:通过后台计数器,记录访客IP和访问频率,人工分析访问记录,屏蔽可疑IP

  缺点:似乎没有缺点,但是站长有点忙

  适用于网站:所有网站,站长可以知道哪些机器人是谷歌或百度

  采集器你将做什么:打游击战!使用IP代理采集一次更改一次,但会降低采集器的效率和网络速度(使用代理)

  3、使用JS加密web内容

  注意:使用js动态转换加密一些配置信息。使用eval()函数解密

  +++++++++++++++++++++++++++++++++++++++++++++++

  +++++++++++++++++++++++++++++++++++++++++++++++

  分析:无需分析,搜索引擎爬虫和采集器通过杀戮

  适用于网站:我讨厌搜索引擎和采集器

  采集器会这样做:如果你这么好,他不会选你的

  网站版权或一些随机垃圾文本隐藏在4、网页中。这些文本样式是在CSS文件中编写的

  分析:"K11"虽然无法阻止,但它会使"K11"之后的内容充满你的"K17"版权描述或一些垃圾文本,因为一般"K0"不会同时"K11"你的CSS文件。这些文字将以不带样式的方式显示

  适用于网站:所有网站

  采集器你会怎么做:替换受版权保护的文本很容易。对于随机垃圾文本,没有办法。勤勉

  5、用户只有在登录后才能访问网站内容

  分析:搜索引擎爬虫不会为每种类型的网站设计登录程序。据说采集器可以为网站设计和模拟用户登录和提交表单的行为

  适用于网站:我讨厌搜索引擎,我想停止大多数网站

  采集器您将做什么:创建一个模块,供用户登录和提交表单

  6、使用脚本语言进行分页(隐藏分页)

  分析:在同一句话中,搜索引擎爬虫不会分析网站的所有隐藏页面,这会影响搜索引擎的收录。但是,在编写采集规则时,采集用户应分析目标网页代码。那些知道一些脚本知识的人将知道页面的真正链接地址

  适用于网站:适用于对搜索引擎依赖性不高的网站,并且采集您的员工不了解脚本知识

  "K0"将如何做:应该说"K11"将如何做。无论如何,他将分析您的网页代码和页面脚本。这不需要太多额外的时间

  7、防盗链措施(您只能通过本网站的页面连接查看,如request.ServerVariables(“http_reference”))

  分析:ASP/'target=''Blank'>ASP和PHP可以读取请求的HTTP\uRefer属性,判断请求是否来自此网站,从而限制采集器。它还限制了搜索引擎爬虫,严重影响了搜索引擎的收录部分防盗链内容的网站

  适用于:不要考虑搜索引擎网站@ > @ K10@>/P>

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线