数据搜集

优采云 发布时间: 2020-08-19 03:07

  数据搜集

  数据的科学处理流程

  数据搜集网路数据采集

  通过网路爬虫或网站的API插口获取网路公开数据,获取的数据大部分为非结构化数据,数据源十分丰富,不过采集的数据并不规范,需要进一步处理。

  系统日志采集

  通过企业业务平台日志系统手机业务日志数据,通过这些方法手机的数据一般为结构化数据,具有较高的可靠性和可用性。目前常用的日志搜集系统主要有Scribe、Chukwa、Kkafka、Flume等

  数据库采集

  通过企业的数据库系统搜集企业的业务数据,通过这些方法手机的数据一般为结构化数据,具有较高的规范性、可靠性和可用性。目前企业常用的关系型数据库系统主要包括SOLite、SqlSever、MySql、Oracle。除此之外,目前越来越多的企业也开始采用Redis和MongoDB这也的Nosql数据库系统。

  数据处理

  对采集到的数据进行必要的加工整理(清洗、集成、变换、规约),以达到数据剖析的规范要求。这个步骤一般是“数据科学”任务周期中最历时、最乏味的阶段,但也是至关重要的一个环节。

  数据储存文本文件(txt、excel、dat等)关系型数据库(SOLite、SqlSever、MySql、Oracle等)非关系型数据库(MongoDb、Redis、Hbase等)数据剖析

  根据实际的任务需求,基于搜集并进行加工处理后的数据,采用统计、机器学习或深度学习的方式构建、训练并优化模型,并应用模型解决实际任务中的问题。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线