数据搜集

优采云发布时间: 2020-08-19 03:07

　　数据搜集

　　数据的科学处理流程

　　数据搜集网路数据采集

　　通过网路爬虫或网站的API插口获取网路公开数据，获取的数据大部分为非结构化数据，数据源十分丰富，不过采集的数据并不规范，需要进一步处理。

　　系统日志采集

　　通过企业业务平台日志系统手机业务日志数据，通过这些方法手机的数据一般为结构化数据，具有较高的可靠性和可用性。目前常用的日志搜集系统主要有Scribe、Chukwa、Kkafka、Flume等

　　数据库采集

　　通过企业的数据库系统搜集企业的业务数据，通过这些方法手机的数据一般为结构化数据，具有较高的规范性、可靠性和可用性。目前企业常用的关系型数据库系统主要包括SOLite、SqlSever、MySql、Oracle。除此之外，目前越来越多的企业也开始采用Redis和MongoDB这也的Nosql数据库系统。

　　数据处理

　　对采集到的数据进行必要的加工整理（清洗、集成、变换、规约），以达到数据剖析的规范要求。这个步骤一般是“数据科学”任务周期中最历时、最乏味的阶段，但也是至关重要的一个环节。

　　数据储存文本文件（txt、excel、dat等）关系型数据库（SOLite、SqlSever、MySql、Oracle等）非关系型数据库（MongoDb、Redis、Hbase等）数据剖析

　　根据实际的任务需求，基于搜集并进行加工处理后的数据，采用统计、机器学习或深度学习的方式构建、训练并优化模型，并应用模型解决实际任务中的问题。

0

2020-08-19

文章采集api

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

数据搜集

0 个评论

发起人