php禁止网页抓取(极度讨厌搜索引擎和采集器的网站采集器会怎么做？(一))

优采云发布时间: 2022-02-05 03:27

　　1、通过IP地址限制单位时间的访问次数

　　分析：没有一个普通人可以在一秒钟内访问相同的网站5次，除非是程序访问，而喜欢这样的人就剩下搜索引擎爬虫和烦人的采集器。

　　缺点：一刀切，这也将阻止搜索引擎收录

　　网站

　　适用网站：网站

　　不依赖搜索引擎

　　采集器会做什么：减少单位时间的访问量，降低采集效率

　　2、屏蔽ip

　　分析：通过后台计数器，记录访问者IP和访问频率，人工分析访问者记录，屏蔽可疑IP。

　　缺点：貌似没有缺点，但是站长很忙

　　适用于网站：所有网站，站长可以知道是google还是百度机器人

　　采集器会做什么：打游击战！使用ip代理采集改一次，但是会降低采集器的效率和网速（使用代理）。

　　3、使用js加密网页内容

　　注意：这个方法我没接触过，只是从其他来源

　　分析：无需分析，搜索引擎爬虫和采集器通杀

　　适用于网站：网站

　　讨厌搜索引擎和采集器

　　采集器会这样做：你太嚣张了，你放弃了，他不会来接你的

　　4、隐藏网站网页中的版权或一些随机的垃圾文字，这些文字样式写在css文件中

　　适用于网站：全部网站

　　采集器会做什么：对于版权文本，容易做，替换。对于随机的垃圾文本，没办法，快点。

　　5、用户登录访问网站内容*

　　分析：搜索引擎爬虫不会为每一个网站设计登录程序。听说采集器可以为某个网站设计模拟用户登录和提交表单的行为。

　　对于网站：网站

　　讨厌搜索引擎并想屏蔽大多数采集器s

　　采集器它将做什么：制作一个模拟用户登录和提交表单行为的模块。

　　6、使用脚本语言进行分页（隐藏分页）

　　分析：还是那句话，搜索引擎爬虫不会分析各种网站的隐藏分页，影响搜索引擎的收录。但是，采集作者在写采集规则的时候，需要分析目标网页的代码，有一定脚本知识的人会知道分页的真实链接地址。

　　适用于网站：网站不高度依赖搜索引擎，采集你的人不懂脚本知识

　　采集器会做什么：我应该说采集会做什么，反正他会分析你的网页代码，顺便分析你的分页脚本，不会花太多时间。

　　7、反链保护措施（只允许通过本站页面连接查看，如：Request.ServerVariables(“HTTP_REFERER”)）

　　分析：asp和php可以通过读取请求的HTTP_REFERER属性来判断请求是否来自这个网站，从而限制采集器，也限制了搜索引擎爬虫，严重影响搜索引擎响应网站部分防盗链内容收录.

　　适用于网站：网站很少考虑搜索引擎收录。

0

2022-02-05

php禁止网页抓取

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

php禁止网页抓取(极度讨厌搜索引擎和采集器的网站采集器会怎么做？(一))

0 个评论

发起人

AI时代内容工厂

php禁止网页抓取(极度讨厌搜索引擎和采集器的网站采集器会怎么做？(一))

0 个评论

发起人

相关问题