网页抓取加密html(限制IP地址单位时间的访问次数分析：屏蔽可疑Ip)

优采云发布时间: 2021-12-16 22:04

　　1、限制IP地址每单位时间的访问次数

　　分析：除了程序访问外，没有任何普通人可以在一秒钟内访问相同的网站5次，而且只有搜索引擎爬虫和恼人的采集器

　　缺点：一刀切，这也会阻止搜索引擎网站收录

　　适用于网站：较少依赖搜索引擎网站

　　采集器如何做：减少单位时间内的访问次数并降低采集

　　2、遮罩IP

　　分析：通过后台计数器，记录访客IP和访问频率，人工分析访问记录，屏蔽可疑IP

　　缺点：似乎没有缺点，但是站长有点忙

　　适用于网站：所有网站，站长可以知道哪些机器人是谷歌或百度

　　采集器你将做什么：打游击战！使用IP代理采集一次更改一次，但会降低采集器的效率和网络速度（使用代理）

　　3、使用JS加密web内容

　　注意：使用js动态转换加密一些配置信息。使用eval（）函数解密

　　+++++++++++++++++++++++++++++++++++++++++++++++

　　分析：无需分析，搜索引擎爬虫和采集器通过杀戮

　　适用于网站：我讨厌搜索引擎和采集器

　　采集器会这样做：如果你这么好，他不会选你的

　　网站版权或一些随机垃圾文本隐藏在4、网页中。这些文本样式是在CSS文件中编写的

　　分析:"K11"虽然无法阻止,但它会使"K11"之后的内容充满你的"K17"版权描述或一些垃圾文本,因为一般"K0"不会同时"K11"你的CSS文件。这些文字将以不带样式的方式显示

　　适用于网站：所有网站

　　采集器你会怎么做：替换受版权保护的文本很容易。对于随机垃圾文本，没有办法。勤勉

　　5、用户只有在登录后才能访问网站内容

　　分析：搜索引擎爬虫不会为每种类型的网站设计登录程序。据说采集器可以为网站设计和模拟用户登录和提交表单的行为

　　适用于网站：我讨厌搜索引擎，我想停止大多数网站

　　采集器您将做什么：创建一个模块，供用户登录和提交表单

　　6、使用脚本语言进行分页（隐藏分页）

　　分析：在同一句话中，搜索引擎爬虫不会分析网站的所有隐藏页面，这会影响搜索引擎的收录。但是，在编写采集规则时，采集用户应分析目标网页代码。那些知道一些脚本知识的人将知道页面的真正链接地址

　　适用于网站：适用于对搜索引擎依赖性不高的网站，并且采集您的员工不了解脚本知识

　　"K0"将如何做:应该说"K11"将如何做。无论如何，他将分析您的网页代码和页面脚本。这不需要太多额外的时间

　　7、防盗链措施（您只能通过本网站的页面连接查看，如request.ServerVariables（“http_reference”））

　　分析：ASP/'target=''Blank'>ASP和PHP可以读取请求的HTTP\uRefer属性，判断请求是否来自此网站，从而限制采集器。它还限制了搜索引擎爬虫，严重影响了搜索引擎的收录部分防盗链内容的网站

　　适用于：不要考虑搜索引擎网站@ > @ K10@＞/P>

0

2021-12-16

网页抓取加密html

0 个评论

要回复文章请先登录或注册