无规则采集器列表算法(先来和搜索引擎爬虫采集有何不同)
优采云 发布时间: 2021-12-17 08:34无规则采集器列表算法(先来和搜索引擎爬虫采集有何不同)
作者自己写了采集器,所以对网站反-采集有了一些感悟。因为是在工作时间,所以只简单的提到了各种方法。
很多反采集的方法在实现时需要考虑是否会影响搜索引擎对网站的爬取,所以先分析一下一般的采集器和搜索引擎爬虫采集。不同的。
相似之处:两者都需要直接抓取网页源代码才能有效工作,b. 两者都会在单位时间内多次抓取大量访问过的网站内容;C。宏观上看,两个IP都会变;d. 两人急于破解你的一些网页加密(验证),比如网页内容是通过js文件加密的,比如浏览内容需要输入验证码,比如你需要登录才能访问内容。
区别:搜索引擎爬虫会忽略整个网页源代码脚本和样式以及html标签代码,然后对剩余的文本进行词法、句法分析等一系列复杂的处理。但是采集器一般是利用html标签的特性来抓取需要的数据。在制定采集规则时,需要填写目标内容的开始和结束标志,这样才能定位到需要的内容;或者为特定的网页制作特定的正则表达式,过滤掉你需要的内容。无论是使用起止标签还是正则表达式,都涉及到html标签(网页结构分析)。
那就来提出一些反采集的方法
1、 限制一个IP地址单位时间内的访问次数
分析:普通人不可能在一秒内访问同一个网站 5次,除非是程序访问。有了这个偏好,只剩下搜索引擎爬虫和烦人的采集器。
缺点:一刀切,这也会阻止搜索引擎响应网站的收录
适用网站:不依赖搜索引擎的网站
采集器会做什么:减少单位时间内的访问次数,降低采集效率
2、屏蔽ip
分析:通过后台计数器,记录访问者的IP和访问频率,人为分析访问记录,屏蔽可疑IP。
缺点:好像没什么缺点,就是站长有点忙
适用网站:所有网站,站长可以知道哪些机器人是谷歌或百度
采集 机器是干什么的:打游击战!使用ip proxy 采集改一次,但是会降低采集器的效率和网速(使用代理)。
3、使用js加密网页内容
注:这个方法我没接触过,不过好像是从别处传来的
分析:无需分析,搜索引擎爬虫和采集器传杀
适用网站:极度讨厌搜索引擎和采集器的网站
采集 设备会这样:你太好了,要拼命他也不来接你
4、隐藏网站版权或网页中一些随机的垃圾文字,这些文字样式写在css文件中
<p>分析:虽然不能阻止采集,但是会在采集之后的内容里填上你的网站版权声明或者一些垃圾文字,因为一般采集器不会被