php禁止网页抓取(极度讨厌搜索引擎和采集器的网站采集器会怎么做?(一))
优采云 发布时间: 2022-02-05 03:27php禁止网页抓取(极度讨厌搜索引擎和采集器的网站采集器会怎么做?(一))
1、通过IP地址限制单位时间的访问次数
分析:没有一个普通人可以在一秒钟内访问相同的网站5次,除非是程序访问,而喜欢这样的人就剩下搜索引擎爬虫和烦人的采集器。
缺点:一刀切,这也将阻止搜索引擎 收录
网站
适用网站:网站
不依赖搜索引擎
采集器会做什么:减少单位时间的访问量,降低采集效率
2、屏蔽ip
分析:通过后台计数器,记录访问者IP和访问频率,人工分析访问者记录,屏蔽可疑IP。
缺点:貌似没有缺点,但是站长很忙
适用于网站:所有网站,站长可以知道是google还是百度机器人
采集器 会做什么:打游击战!使用ip代理采集改一次,但是会降低采集器的效率和网速(使用代理)。
3、使用js加密网页内容
注意:这个方法我没接触过,只是从其他来源
分析:无需分析,搜索引擎爬虫和采集器通杀
适用于网站:网站
讨厌搜索引擎和采集器
采集器会这样做:你太嚣张了,你放弃了,他不会来接你的
4、隐藏网站网页中的版权或一些随机的垃圾文字,这些文字样式写在css文件中
分析:虽然不能阻止采集,但是它会让采集后面的内容充满你的网站版权声明或者一些垃圾文字,因为一般采集器不会同时采集你的css文件,那些文本显示没有样式。
适用于网站:全部网站
采集器会做什么:对于版权文本,容易做,替换。对于随机的垃圾文本,没办法,快点。
5、用户登录访问网站内容*
分析:搜索引擎爬虫不会为每一个网站设计登录程序。听说采集器可以为某个网站设计模拟用户登录和提交表单的行为。
对于网站:网站
讨厌搜索引擎并想屏蔽大多数采集器s
采集器它将做什么:制作一个模拟用户登录和提交表单行为的模块。
6、使用脚本语言进行分页(隐藏分页)
分析:还是那句话,搜索引擎爬虫不会分析各种网站的隐藏分页,影响搜索引擎的收录。但是,采集作者在写采集规则的时候,需要分析目标网页的代码,有一定脚本知识的人会知道分页的真实链接地址。
适用于网站:网站不高度依赖搜索引擎,采集你的人不懂脚本知识
采集器会做什么:我应该说采集会做什么,反正他会分析你的网页代码,顺便分析你的分页脚本,不会花太多时间。
7、反链保护措施(只允许通过本站页面连接查看,如:Request.ServerVariables(“HTTP_REFERER”))
分析:asp和php可以通过读取请求的HTTP_REFERER属性来判断请求是否来自这个网站,从而限制采集器,也限制了搜索引擎爬虫,严重影响搜索引擎响应网站部分防盗链内容收录.
适用于网站:网站很少考虑搜索引擎收录。