自动采集子系统(自动采集子系统开发的六种场景可以从哪来？)

优采云发布时间: 2022-03-20 07:05

　　自动采集子系统的本质是采集大数据的一个实例。实际中，子系统是基于java或javaweb框架进行拓展开发的。目前市面上非常多的采集子系统开发技术是基于http请求获取子系统数据。然而，根据子系统采集数据的要求不同，子系统中可以有诸多应用场景，

　　一、控制数据筛选1.控制不同数据源获取数据，防止重复。目前自动采集数据的数据源有，web,api接口，*敏*感*词*接口，smtp接口，关联接口。2.数据源之间可以构成一个数据汇总表，把多个数据源的数据汇总在一起。数据筛选就可以利用这种汇总表来完成，大大简化了数据处理流程。

　　二、简化http接口请求1.用户访问接口不必设置授权，只需要基于该接口模拟请求，用户就会获取到传入的id和一些用户权限信息。接口不需要用户认证，用户无需承担操作的资金风险。2.仅当利用子系统的类似redis等缓存服务器进行缓存的时候，无需用户授权。

　　三、节省cpu使用不同访问用户，针对同一个用户，可以用更少的cpu，响应更快。这样就可以节省重复的定时任务去重复获取数据。

　　四、节省代码复杂度设计一个简单的子系统就可以大大提高运行效率。比如：节省多线程协作，以及异步，阻塞的代码开发。

　　五、提高安全性子系统采集的数据是需要写到数据库里的，这样的话，就只需要将需要的数据用javaweb做好，将数据放到数据库中，但无需写到服务器中。将采集到的数据按照一定规则，写到文件或者数据库中保存。也可以关联另外一些web服务器服务，做成一个接口一起放到系统中。以上六种场景可以从以下方面去提高子系统的安全性1.服务器加密避免恶意采集获取数据2.权限加密3.假定数据库sql重复使用来做分布式集群4.采集的机密性5.采集的参数配置6.缓存服务器缓存6.8.8进制转化首先，计算机多核心是高性能运算中不可或缺的元素。

　　这就意味着，如果单一数据源可以多线程处理，我们要保证性能，就需要根据进行多核cpu上进行大量的并发算力。而因为前端是http协议，不通过socket进行通信，所以对于程序员来说是很好编写的程序。但是，计算机内部架构及硬件集群如果采用多核（cpu数目过多），上面说的采集流程就会很麻烦。所以一般普通的子系统都是采用多线程来进行并发读写操作，也就是单一数据源没有多线程操作线程。

　　但是，无论是单一数据源（http接口）还是多个数据源（web接口），都会存在重复请求。多线程工作原理我们知道，线程因为一个线程内并发读写操作会给整个集群带来不好的性能，集群越庞。

0

2022-03-20

自动采集子系统

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

自动采集子系统(自动采集子系统开发的六种场景可以从哪来？)

0 个评论

发起人

AI时代内容工厂

自动采集子系统(自动采集子系统开发的六种场景可以从哪来？)

0 个评论

发起人

相关问题