防采集 - 最讨厌采集，一点技术浓度都没有！

优采云发布时间: 2020-08-11 14:55

　　笔者自己是写采集器的，所以对网站防采集有一些心得感悟。因为是在下班时间，各种方式只是简单的提到。

　　很多防采集方法在实行的时侯须要考虑是否影响搜索引擎对网站的抓取，所以先来剖析下通常采集器和搜索引擎爬虫采集有何不同。

　　相同点：a. 两者都须要直接抓取到网页源码能够有效工作，b. 两者单位时间内会多次大量抓取被访问的网站内容；c. 宏观上来讲二者IP就会变动；d. 两者多没耐心的去破解你对网页的一些加密(验证)，比如网页内容通过js文件加密，比如须要输入验证码能够浏览内容，比如须要登陆能够访问内容等。

　　不同点：搜索引擎爬虫先忽视整个网页源码脚本和款式以及html标签代码，然后对剩下的文字部份进行切成语法复句剖析等一系列的复杂处理。而采集器通常是通过html标签特性来抓取须要的数据，在制做采集规则时须要填写目标内容的开始标志何结束标志，这样就定位了所须要的内容；或者采用对特定网页制做特定的正则表达式，来筛选出须要的内容。无论是借助开始结束标志还是正则表达式，都会涉及到html标签(网页结构剖析)。

　　然后再来提出一些防采集方法

　　1、限制IP地址单位时间的访问次数

　　分析：没有那个常人一秒钟内能访问相同网站5次，除非是程序访问，而有这些喜好的，就剩下搜索引擎爬虫和厌恶的采集器了。

　　弊端：一刀切，这同样会制止搜索引擎对网站的收录

　　适用网站：不太借助搜索引擎的网站

　　采集器会怎样做：减少单位时间的访问次数，减低采集效率

　　2、屏蔽ip

　　分析：通过后台计数器，记录来访者ip和访问频度，人为剖析来访记录，屏蔽可疑Ip。

　　弊端：似乎没哪些弊病，就是站长忙了点

　　适用网站：所有网站，且站长才能晓得什么是google或则百度的机器人

　　采集器会怎样做：打游击战呗！利用ip代理采集一次换一次，不过会增加采集器的效率和网速(用代理嘛)。

　　3、利用js加密网页内容

　　Note:这个方式我没接触过，只是从别处看来

　　分析：不用剖析了，搜索引擎爬虫和采集器通杀

　　适用网站：极度厌恶搜索引擎和采集器的网站

　　采集器会如此做：你这么牛，都豁出去了，他就不来采你了

　　4、网页里隐藏网站版权或则一些随机垃圾文字，这些文字风格写在css文件中

　　分析：虽然不能避免采集，但是会使采集后的内容饱含了你网站的版权说明或则一些垃圾文字，因为通常采集器不会同时采集你的css文件，那些文字没了风格，就显示下来了。

　　适用网站：所有网站

　　采集器会怎样做：对于版权文字，好办，替换掉。对于随机的垃圾文字，没办法，勤快点了。

　　5、用户登入能够访问网站内容

　　分析：搜索引擎爬虫不会对每位这样类型的网站设计登入程序。听说采集器可以针对某个网站设计模拟用户登入递交表单行为。

　　适用网站：极度厌恶搜索引擎，且想制止大部分采集器的网站

　　采集器会怎样做：制作拟用户登入递交表单行为的模块

　　6、利用脚本语言做分页(隐藏分页)

　　分析：还是那句，搜索引擎爬虫不会针对各类网站的隐藏分页进行剖析，这影响搜索引擎对其收录。但是，采集器在编撰采集规则时，要剖析目标网页代码，懂点脚本知识的人，就会晓得分页的真实链接地址。

　　适用网站：对搜索引擎依赖度不高的网站，还有，采集你的人不懂脚本知识

　　采集器会怎样做：应该说采集器会怎样做，他总之都要剖析你的网页代码，顺便剖析你的分页脚本，花不了多少额外时间。

　　7、防盗链举措(只容许通过本站页面联接查看，如：Request.ServerVariables(“HTTP_REFERER“) )

　　分析：ASP/' target='_blank'>asp和php可以通过读取恳求的HTTP_REFERER属性，来判定该恳求是否来自本网站，从而来限制采集器，同样也限制了搜索引擎爬虫，严重影响搜索引擎对网站部分防盗链内容的收录。

　　适用网站：不太考虑搜索引擎收录的网站

　　采集器会怎样做：伪装HTTP_REFERER嘛，不难。

　　8、全flash、图片或则pdf来呈现网站内容

　　分析：对搜索引擎爬虫和采集器支持性不好，这个好多懂点seo的人都晓得

　　适用网站：媒体设计类而且不在乎搜索引擎收录的网站

　　采集器会怎样做：不采了，走人

　　9、网站随机采用不同模版

　　分析：因为采集器是依照网页结构来定位所须要的内容，一旦先后两次模版更换，采集规则就失效，不错。而且这样对搜索引擎爬虫没影响。

　　适用网站：动态网站，并且不考虑用户体验。

　　采集器会怎样做：一个网站模版不可能少于10个吧，每个模版弄一个规则就行了，不同模版采用不同采集规则。如果少于10个模版了，既然目标网站都这么费力的更换模版，成全他，撤。

　　10、采用动态不规则的html标签

　　分析：这个比较变态。考虑到html标签内含空格和不含空格疗效是一样的，所以和对于页面显示疗效一样，但是作为采集器的标记就是两个不同标记了。如果每次页面的html标签内空格数随机，那么

　　采集规则就失效了。但是，这对搜索引擎爬虫没多大影响。

　　适合网站：所有动态且不想违背网页设计规范的网站。

　　采集器会怎样做：还是有对策的，现在html cleaner还是好多的，先清除了html标签，然后再写采集规则；应该用采集规则前先清除html标签，还是才能领到所需数据。

　　总结：

　　一旦要同时搜索引擎爬虫和采集器，这是太使人无奈的事情，因为搜索引擎第一步就是采集目标网页内容，这跟采集器原理一样，所以好多避免采集的方式同时也妨碍了搜索引擎对网站的收录，无奈，是吧？以上10条建议尽管不能百分之百防采集，但是几种方式一起适用早已拒绝了一大部分采集器了。

　　三、关于防采集的方式

　　优采云：下面讲一些主要的防采集方法。可以说是攻守对战吧。打开一个网页实际就是一个Http请求浏览器。百度蜘蛛，小到我们的采集器使用的都是一个原理，模拟http请求，所以我们同样能模拟出浏览器。百度蜘蛛下来所以绝对的防采集根本不存在，只是难度的高低。或者你觉得搜索引擎的搜录也无所谓了。你可以用一些特别强悍的activex，flash，全图片文字的方式，这个我们无能为力。

　　普通的防采集方法有

　　1、来源判定

　　2、登录信息判定 Cookie

　　3、请求次数判别。如一段时间内恳求多少，非常规操作则封IP

　　4、发送方法判定 POST GET 使用JS，Ajax等恳请内容

　　举例：

　　1.2不用说了，论坛，下载站等。。

　　3、一些大网站，需要配置服务器，单纯靠脚本判定资源消耗比较大

　　4、如一些急聘站，的分页，Web2.0站的ajax恳求内容

　　当然我们前面还发觉一些*****锏，今天第一次在这里给你们公布下来~~ 有优质内容须要防采集的同学可以考虑试下

　　1、网页默认deflate压缩输出（gzip容易一点，容易解压）我们普通的浏览器和baidu支持辨识gzip，deflate输出内容

　　2、网页内容不定时 /0 内容手动截断，这两点基本可以防主大部分主流软件采集及web采集程序了~

　　今天主要想要抒发的一点，大家在做站时一定要注意技术的提升，比如我们上面有后期外部php及.net插口处理采集数据。或者干脆你自己做一个发布时的插口程序自己入库。我们伪原创做得再好，一样有特别多的会员使用，那样又不原创了，采集一样须要技术，只有你通过采集器获得了没有多少人有的数据，你才是惟一了。可能是我最为技术型人的一个弊病，谢谢你们！

　　互动环节

　　问：您刚刚谈到对采集有屏蔽，那对搜索引擎呢

　　答：采集和百度爬虫是一模一样的原理还有浏览器也是一样的所以没有绝对的屏蔽，相反都会影响客户体验，你可以做一些不影响客户体验和搜索引擎搜录而提升采集难度的尝试

　　问：你刚刚讲的是网页内容采集，有没有针对匹配关键词的指定数组的高速采集，比如采集所有带”IDC“的网页的邮箱和电话号码？用过一些，速度太慢，而且数据量显著很少。

　　答：我们不做这样批量的工具，其实例如做峰会发帖机之类的实现上去道理一样，也很容易，其实实现上去也是可以，只是有更多的一些人工操作，我们上面有正则匹配。。也就是你要的这些单一工具把这些正则都集成在上面了。而我们须要用户自己去写

　　问：采集的复杂度应当就在这吧？页面规则的不规则性和多变性？

　　答：在软件上面设置才能匹配多种模板的正则表达式，一样可以采集到多模板的网站，所谓“道高一尺，魔高一丈”。

　　问：优采云，能不能说一下如何把phpcms的文章模块下的第一级栏目显示下来啊？

　　答：用的是 07 还是08版 07版有一个终极栏目的属性如果是，就不显示。

　　问：优采云，你认为那个CMS比较好用，你给你们推荐一个你最钟意的CMS系统吧。

　　答：我如今是对phpcms更熟悉一些。选择一个适宜自己的就够了。研究透一个。

　　问：有个采集工具海纳号称不要编撰采集规则，不知道有没有同事研究过，想讨教其原理？

　　答：你说的这个是内容主体辨识的范畴了。也做过，但只对一些新闻网站识别得比较好，这是一个手动匹配方式的工具，就像百度新闻一样，能手动匹配到正文数据。对大数据量的提取有用处。但精度相对低点点，因为人工不可控。

　　问：2008 版本能平滑升级到 2009吗？我是免费用户，呵呵。

　　答：软件升级：请运行程序目录下的updateto2009.exe进行升级。支持3.2sp5及2008版到2009版的升级，支持所有用户

　　问：请问伪原创的问题如何处理呢？

　　答：我们伪原创做得再好，一样有特别多的会员使用，那样又不原创了，采集一样须要技术，只有你通过采集器获得了没有多少人有的数据，你才是惟一了。比如我们有同义词替换功能，这个词库就须要最好你自己去扩展一个属于自己的伪原创。使用同义词反义词替换，排除敏感词，不同的标签之间数据融合，指如标题内容之间数据的互相替换给标题。内容副词。为文章标题等生成拼音地址给文章加上摘要。采集一些其他编码的网站，我们可以做到简简体转化，可以采集中文网站翻译成英文（虽然比较垃圾，但应当可以算是原创）网民，默认的我们能否手动辨识网页的编码。但可能也会有出错的时侯，这时候你须要在任务第四页手工定义一下，比如是gb2312还是utf8等等。

0

2020-08-11

采集器的自动识别算法

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

防采集 - 最讨厌采集，一点技术浓度都没有！

0 个评论

发起人

AI时代内容工厂

防采集 - 最讨厌采集，一点技术浓度都没有！

0 个评论

发起人

相关问题