免规则采集器列表算法(最常规的防止网页被搜索引擎收录的方法是什么？)

优采云发布时间: 2021-10-31 23:15

　　防止网页被搜索引擎收录搜索最常见的方法是使用robots.txt，但这样做的缺点是搜索引用的所有已知爬虫信息都必须列出，而且不可避免会有遗漏。以下方法可治标治本：（摘自）

　　1、限制一个IP地址单位时间内的访问次数

　　分析：普通人不可能在一秒内访问同一个网站 5次，除非是程序访问。有了这个偏好，只剩下搜索引擎爬虫和烦人的采集器。

　　缺点：一刀切，这也会阻止搜索引擎响应网站的收录

　　适用网站：不依赖搜索引擎的网站

　　采集器会做什么：减少单位时间内的访问次数，降低采集效率

　　2、屏蔽ip

　　分析：通过后台计数器，记录访问者的IP和访问频率，人为分析访问记录，屏蔽可疑IP。

　　缺点：好像没什么缺点，就是站长有点忙

　　适用网站：所有网站，站长可以知道哪些机器人是谷歌或百度

　　采集器你会怎么做：打游击战！使用ip proxy 采集改一次，但是会降低采集器的效率和网速（使用代理）。

　　3、使用js加密网页内容

　　注：这个方法我没接触过，不过好像是从别处传来的

　　分析：无需分析，搜索引擎爬虫和采集器传杀

　　适用网站：极度讨厌搜索引擎和采集器的网站

　　采集器会这样：你这么好，你这么好，他不会来接你的

　　4、隐藏网站版权或网页中一些随机的垃圾文字，这些文字样式写在css文件中

0

2021-10-31

免规则采集器列表算法

0 个评论

要回复文章请先登录或注册