内容采集软件(内容采集软件系统开发的原因及解决办法（一）)

优采云发布时间: 2022-04-16 19:04

　　内容采集软件系统的开发可分为二个方面，即采集策略和抓取服务。采集策略部分比较简单，所有的采集技术原理都在客户端实现；而抓取服务部分相对复杂，涉及到爬虫、封禁等模块。总的来说，软件采集系统开发过程是成熟的采集技术开发+自主开发+系统集成。采集策略采集策略的实现过程一般采用反正则策略（或者说地址反正则策略）。

　　这样做的原因是：1.地址反正则策略由于爬虫爬取地址后不能修改，而通过逆地址来反爬取的话，可以根据各类相关规则快速定位爬取到的用户ip地址，并且后续可以用一个回填方案来及时修改ip攻击策略；2.对网页内容进行分析，抓取用户ip必须同时符合网页内容分析定位规则才可以抓取，否则地址可能存在不确定性；3.如果存在爬取规则，使用通用抓取规则包，一般会影响爬取效率。

　　针对上述四种弊端，逆爬取策略的出现就能很好的解决上述问题。设置两层或三层规则就可以根据实际网站请求ip判断用户登录时间，找到规则和判断时间点（平行一级多级规则返回规则，一般只用一条规则）就可以快速高效的抓取规则定位点。抓取服务接下来就是抓取服务这块。抓取服务我分两种：一种是独立抓取，另一种是在需要抓取一定量网页时进行自动爬取。

　　对于独立抓取，原则上应该做到页面中每个链接都能抓取，爬取方案我会根据实际情况进行差异化定制，如果一定要完全按照网站特点来做抓取方案，那么推荐使用unigine；对于在自动抓取模块上进行自定义，大致情况是提供script、script-xxx、http-xxx等格式，根据实际网站业务实行抓取方案，如果有自定义base64解码功能也可以自定义格式。

　　防封ip服务建议做到ip段屏蔽防封。对于ip段屏蔽防封的方案可以找api大师，按照抓取类型，选择对应ip段设置屏蔽规则即可。要想实现*敏*感*词*抓取，需要具备浏览器记录。比如可以和excel、resttemplate、requests模块连接，完成抓取的时候使用webhook服务推送requestrequestrequest；同时还可以与scriptwatcher或requests的parser机制联合使用，完成抓取。

　　抓取规则规则的实现就是一个拼接网页ip的工作，常用的有cookie爬取、xml爬取、html爬取、pdf爬取等。综上所述，大致分为采集策略、抓取服务、防封ip软件开发、采集规则管理。对于一般规则管理，那么通过script语句和规则定制即可，对于全量爬取和部分爬取，就需要看网站策略是否支持爬取规则，再根据实际需求来实现规则定制。一般采集策略中间用ip段的控制方式定义，例如128-192的限制，实际使用中当有人抓取a。

0

2022-04-16

内容采集软件

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

内容采集软件(内容采集软件系统开发的原因及解决办法（一）)

0 个评论

发起人

AI时代内容工厂

内容 采集 软件(内容采集软件系统开发的原因及解决办法（一）)

0 个评论

发起人

相关问题

内容采集软件(内容采集软件系统开发的原因及解决办法（一）)