无规则采集器列表算法(*敏*感*词*解决方案警务实时布控系统服务于*敏*感*词**敏*感*词*侦破(组图))
优采云 发布时间: 2021-12-31 16:35无规则采集器列表算法(*敏*感*词*解决方案警务实时布控系统服务于*敏*感*词**敏*感*词*侦破(组图))
什么是实时数据处理?
• 数据生成->实时采集->实时缓存存储->实时计算->实时登陆->实时展示->实时分析。这个过程下去,处理数据的速度是秒级甚至毫秒级的。
• 电子商务网站双十一大屏,优采云站实时车辆信息显示,股票交易大厅信息显示。
实时数据处理意义
• 数据的价值是通过大数据处理获得的,但数据的价值是恒定的吗?明显不是。一些数据在业务发生后很快就具有很高的价值,随着时间的推移,这个价值会迅速下降,因此数据的处理速度变得尤为重要。实时处理的关键意义在于能够更快速地提供数据洞察。
实时处理解与其他解的关系
实时部署场景
商业场景
广州省*敏*感*词*厅警务实时布控系统服务于*敏*感*词**敏*感*词*侦查。
• 实时数据采集:通过警务数据共享交换平台和边界平台实时获取出行/住宿/通讯/视频数据。
• 实时数据分析:基于规则模型对调度人员信息进行实时监控和分析。
• 智能实时预警:部署控制规则触发后实时预警,通知办案人员*敏*感*词*。
典型特征
• 多种数据格式:数据库/数据文件/视频图片。
• 海量数据:22.5TB/天/35MB/秒。
• 数据冲击的流入:数据流量在短时间内突然增长。
• 复杂作业调度:实时采集/小批量采集。
• 时间要求高:5 秒内完成计算。
• 资源占用高:容易发生资源抢占。
*敏*感*词*反欺诈场景
商业场景
Z银行*敏*感*词*反欺诈系统基于“渠道-反欺诈引擎-主机”的实现框架:
• 交易通道:客户刷卡后,从银联、VISA、万事达等卡组织向银行发送实时交易。
• 欺诈识别:
• 清理和完善卡组织的交易数据,提取风险特征。
• 将风险特征加载到神经网络和业务规则中,对交易做出欺诈判断。
• 拦截可疑交易并发送验证码进行验证。
• 主持人:
• 对正常交易进行账务处理,登记异常交易拦截原因,冻结假卡。
典型特征
• 大:处理的数据量大,并发度高。
• 快速:以毫秒为单位进行欺诈识别。
• 稳定:7*24 *敏*感*词*。
o 多租户支持:服务于不同的业务线。
• 丰富的模型支持。
• 规则
• 异常值模型(无监督学习:聚类)
• 关联模型(监督学习:LR、分类等)
• 神经网络模型
实时数据处理系统的需求
• 处理速度快:端到端的处理需要达到秒级。比如风控项目需要单次数据处理时间达到秒级,单节点TPS大于2000。
• 高吞吐量:需要在短时间内接收和处理大量数据记录,吞吐量需要达到几十兆/秒/节点。
• 高可靠性:当网络和软件出现故障时,要保证每条数据不丢失,不遗漏或重复处理数据。
• 横向扩展:当系统处理能力出现瓶颈时,可以通过节点的横向扩展来提升处理性能。
• 多数据源支持:支持网络流、文件、数据库表、IOT等格式的数据源。对于文件数据源,可以处理增量数据的加载。
• 数据权限和资源隔离:消息处理和流处理需要数据权限控制。不同的工作和用户可以访问和处理不同的消息和数据。多个流处理应用之间需要进行资源控制和隔离,以防止资源争用。
• 第三方工具对接:支持与第三方规则引擎、决策系统、实时推荐系统等对接。
华为实时流处理技术架构
• 数据源:主要包括业务数据库、Socket数据流和实时文件等。
• 实时数据采集:用于实时采集数据源产生的写入分布式消息系统的数据。采集的数据格式包括文件、数据库、网络数据流等。
• Flume:Hadoop自带的采集工具,支持多种格式的数据源,包括日志文件、网络数据流等。
• 第三方采集工具:第三方专用实时数据采集工具,包括GoldenGate(数据库实时采集)、自研采集程序(自定义采集工具)等。
• 消息中间件:消息中间件可以缓存实时数据,支持高吞吐量的消息订阅和发布。
• Kafka:分布式消息系统,支持消息的生产和发布,以及多种形式的消息缓存,满足高效可靠的消息生产和消费。
• 分布式流计算引擎:用于实时数据的快速分析。
• Structured Streaming:基于Spark 的流处理引擎,支持秒级流处理分析。
• Flink:新一代流处理引擎,支持毫秒级流处理分析。
• 流计算引擎,优先推荐Flink
• 数据缓存(可选):缓存流处理分析的结果,满足流处理应用的访问需求。
• Redis:提供高速键/值存储和查询能力,用于流处理结果数据的高速缓存。