自动采集机从用户需求开始的到产品上线基本过程
优采云 发布时间: 2022-07-20 02:00自动采集机从用户需求开始的到产品上线基本过程
自动采集机从用户需求开始的到产品上线基本过程从采集服务器到数据中心再到服务器采集设备采集服务器主要提供图片视频流数据等,一般采集数据集中在推荐服务器端,用于提取用户画像及用户意图流数据。etl实际上大部分互联网产品都有这个需求,每个维度的数据都可以建立etl查询数据。数据中心是整个采集平台最重要的部分,一般etl实现的数据为文本格式,方便以后业务处理流处理,减少数据量同时利于后端的数据操作服务器是内存或者硬盘的存储组件,同时ip代理服务器用于调取文件,采集服务器用于上传数据。
数据通道可选择腾讯云或阿里云的,大小根据数据量来做选择服务器端主要用于服务器的调度,大小根据数据量来做选择。一般业务类型产品会配置8个主节点负责数据的采集和hive等sql处理逻辑采集设备是从用户在服务器上面的某一个ip地址做映射,设备端常见的采集设备一般为集群设备,数据中心端和服务器端一般为独立设备,数据中心端放置的同时服务器端也要做集群方便以后数据处理mysql是数据库入口,单独注册,调用post来上传数据struts是通用框架,作为spring的注册项,配置中进行映射映射好的数据入口会调用mysql数据库直接上传,很多读写区的原因出错或者数据丢失注册了的要保证上传的数据是完整性,采集工作量一般是将完整的数据存储在mysql中流数据有可能会缺失,所以spring可以配置可以按需注册流数据,一般spring框架会有一些配置可以做到可配置的,保证可配置的流数据稳定性数据处理完之后spring的sql就不可能完整了,所以就要写etl脚本,将流数据组织到多个表中处理,再转成结构化数据,以sql处理文本数据方案依然根据用户需求来选择。