一键采集上传常见的细节问题(一键采集上传常见的细节问题解决方案,提高io处理能力)
优采云 发布时间: 2021-09-29 01:04一键采集上传常见的细节问题(一键采集上传常见的细节问题解决方案,提高io处理能力)
一键采集上传常见的细节问题解决方案,以c/c++采集代码为例,
1、将实际输入代码加密,使其上传时不会暴露内容,存在一定的安全性。
2、人力负荷较大,采集大量数据,c/c++的处理器过多时,程序性能有极大限制。
3、如果上传的数据量庞大,且采集速度过慢,利用epoll将加载缓存区的数据读取并放到后台中,采用select方式将数据处理,并避免应用层tcp等底层连接问题。
4、采用memcached作缓存数据和数据库主从复制,提高io处理能力以及数据库访问性能。
5、自动提取子集合的数据并通过json格式上传。采集脚本中每一个元素都有唯一的url、cookie等标识,且需要配置下一步才能更新,如无需自动提取子集合,则采集脚本更新速度及维护问题将变得十分复杂。
若采集数据量巨大,
1、代码膨胀,一个人负责至少数百k的上传,c/c++代码量庞大,加密,需要加大调试周期。
2、利用系统实时性及功能接口完成接口以及公共接口的联调,如合并域/链接池等,保证系统接口跟上物联网时代发展趋势。
3、可以使用阿里的jmx,将采集以json格式存放。
4、性能调优:可以对已上传数据过一遍系统,对以前的数据,加大调试周期,优化性能,
1、加密,这个通常是指基于ssl协议做传输和发送的加密。这是非对称加密算法的一种,也可以进行对称加密,即两端加密过程一致,没有加密的时候,在系统没被发现任何数据泄露的情况下数据可以安全传输和发送。
2、解密算法。js要么通过boost::rc3实现,要么通过javascript实现。实现javascript要么通过javascript漏洞调用的方式,要么通过自己实现;注意这里的javascript漏洞用javascript::bridge_public或者javascript::bridge_the,具体怎么实现,自己看文档解决。
3、基于rxjava的多线程和promise。
4、重要:
1)通常高校只是做采集数据,
2)这个对于初创公司尤其重要,因为现在大家做软件,工作量重点在开发前端和后端上,采集数据这块使用的系统以及数据来源的问题一般不能很好处理,数据直接暴露给被采集的公司一般就暴露到公司总部了,因此在开发过程中,由于不能获取被采集公司相关数据,会造成很多困扰,这些困扰归根结底都是数据量太大导致的。
5、创业初期尽量使用java,这个工作量不大;采集其他系统,一般重点在前端开发和服务器维护,另外就是数据库,这个可以接收,