内容 采集 软件(内容采集软件系统开发的原因及解决办法(一))

优采云 发布时间: 2022-04-16 19:04

  内容 采集 软件(内容采集软件系统开发的原因及解决办法(一))

  内容采集软件系统的开发可分为二个方面,即采集策略和抓取服务。采集策略部分比较简单,所有的采集技术原理都在客户端实现;而抓取服务部分相对复杂,涉及到爬虫、封禁等模块。总的来说,软件采集系统开发过程是成熟的采集技术开发+自主开发+系统集成。采集策略采集策略的实现过程一般采用反正则策略(或者说地址反正则策略)。

  这样做的原因是:1.地址反正则策略由于爬虫爬取地址后不能修改,而通过逆地址来反爬取的话,可以根据各类相关规则快速定位爬取到的用户ip地址,并且后续可以用一个回填方案来及时修改ip攻击策略;2.对网页内容进行分析,抓取用户ip必须同时符合网页内容分析定位规则才可以抓取,否则地址可能存在不确定性;3.如果存在爬取规则,使用通用抓取规则包,一般会影响爬取效率。

  针对上述四种弊端,逆爬取策略的出现就能很好的解决上述问题。设置两层或三层规则就可以根据实际网站请求ip判断用户登录时间,找到规则和判断时间点(平行一级多级规则返回规则,一般只用一条规则)就可以快速高效的抓取规则定位点。抓取服务接下来就是抓取服务这块。抓取服务我分两种:一种是独立抓取,另一种是在需要抓取一定量网页时进行自动爬取。

  对于独立抓取,原则上应该做到页面中每个链接都能抓取,爬取方案我会根据实际情况进行差异化定制,如果一定要完全按照网站特点来做抓取方案,那么推荐使用unigine;对于在自动抓取模块上进行自定义,大致情况是提供script、script-xxx、http-xxx等格式,根据实际网站业务实行抓取方案,如果有自定义base64解码功能也可以自定义格式。

  防封ip服务建议做到ip段屏蔽防封。对于ip段屏蔽防封的方案可以找api大师,按照抓取类型,选择对应ip段设置屏蔽规则即可。要想实现*敏*感*词*抓取,需要具备浏览器记录。比如可以和excel、resttemplate、requests模块连接,完成抓取的时候使用webhook服务推送requestrequestrequest;同时还可以与scriptwatcher或requests的parser机制联合使用,完成抓取。

  抓取规则规则的实现就是一个拼接网页ip的工作,常用的有cookie爬取、xml爬取、html爬取、pdf爬取等。综上所述,大致分为采集策略、抓取服务、防封ip软件开发、采集规则管理。对于一般规则管理,那么通过script语句和规则定制即可,对于全量爬取和部分爬取,就需要看网站策略是否支持爬取规则,再根据实际需求来实现规则定制。一般采集策略中间用ip段的控制方式定义,例如128-192的限制,实际使用中当有人抓取a。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线