无规则采集器列表算法(最常规的防止网页被搜索引擎收录的方法是什么?)
优采云 发布时间: 2022-01-16 20:03无规则采集器列表算法(最常规的防止网页被搜索引擎收录的方法是什么?)
最常见的防止网页被搜索引擎搜索到的方法收录是使用robots.txt,但这样做的缺点是列出了所有来自搜索引擎的已知爬虫信息,难免会出现遗漏。以下方法可以标本兼治:(摘自)
1、限制单位时间内每个IP地址的访问次数
分析:没有一个普通人可以在一秒钟内访问同一个网站5次,除非是程序访问,喜欢这样的人就剩下搜索引擎爬虫和烦人的采集器。
缺点:一刀切,这也会阻止搜索引擎访问 收录 或 网站
适用于网站:网站不严重依赖搜索引擎的人
采集器会做什么:减少单位时间的访问次数,降低采集的效率
2、屏蔽ip
分析:通过后台计数器,记录访客IP和访问频率,人工分析访客记录,屏蔽可疑IP。
缺点:好像没有缺点,就是站长忙
适用于网站:所有网站,站长可以知道是google还是百度机器人
采集器 会做什么:打游击战!使用ip代理采集改一次,但是会降低采集器的效率和网速(使用代理)。
3、使用js加密网页内容
注意:我没有接触过这个方法,只是来自其他来源
分析:不用分析,搜索引擎爬虫和采集器杀
对于网站:讨厌搜索引擎的网站和采集器
采集器 会这样做:你那么好,你要牺牲,他不会来接你
4、隐藏网站网页中的版权或一些随机的垃圾文字,这些文字样式写在css文件中
分析:虽然不能阻止采集,但是会让采集后面的内容被你的网站版权声明或者一些垃圾文字填满,因为一般采集器不会采集您的 css 文件,这些文本显示时没有样式。
适用于 网站:所有 网站
采集器怎么办:对于版权文本,好办,替换掉。对于随机垃圾文本,没办法,快点。
5、用户登录访问网站内容*
分析:搜索引擎爬虫不会为每一种此类网站设计登录程序。听说采集器可以为某个网站设计模拟用户登录和提交表单的行为。
对于网站:网站讨厌搜索引擎,最想屏蔽采集器
采集器 会做什么:制作一个模块来模拟用户登录和提交表单的行为
6、使用脚本语言进行分页(隐藏分页)
分析:还是那句话,搜索引擎爬虫不会分析各种网站的隐藏分页,影响搜索引擎的收录。但是,采集作者在编写采集规则的时候,需要分析目标网页的代码,稍微懂一点脚本知识的就知道分页的真实链接地址了。
适用于网站:网站对搜索引擎依赖不高,采集你的人不懂脚本知识
采集器会做什么:应该说采集这个人会做什么,反正他要分析你的网页代码,顺便分析一下你的分页脚本,用不了多少额外的时间。
7、反链保护措施(只允许通过本站页面连接查看,如:Request.ServerVariables("HTTP_REFERER"))
分析:asp和php可以通过读取请求的HTTP_REFERER属性来判断请求是否来自这个网站,从而限制采集器,同时也限制了搜索引擎爬虫,严重影响了搜索引擎对网站。@网站部分防盗链内容收录。
适用于网站:网站很少考虑搜索引擎收录