数据剖析实战之怎么自动化采集数据
优采云 发布时间: 2020-08-10 07:31从数据采集的角度看,数据源可以分为以下三类
一、开放数据源:一般是针对行业的数据库。可以两个维度来考虑:
1)单位:政府、企业和院校
2)行业:比如交通、金融、能源等
二、爬虫抓取:一般是针对特定的网站或APP。
1、使用python编撰爬虫代码,会经历以下过程
1)使用requests爬取内容。使用requests库抓取网页信息
2)使用XML Path解析内容。
3)使用pandas保存数据
2、不用编程也可以抓取网页信息的抓取工具
优采云采集器、优采云、集搜客
三、日志采集:统计用户的操作。在后端进行埋点、在前端进行脚本搜集、统计,来剖析网站的访问情况,以及使用困局
日志记录了用户访问网址的全过程:哪些人在哪些时间,通过哪些渠道来过,执行了什么操作;系统是否形成了错误;甚至包括用户的IP、HTTP恳求的时间,用户代理等。
埋点是日志采集的关键步骤。埋点就是在有须要的位置采集相应的信息,进行上报。每个埋点如同一台*敏*感*词*,采集用户行为数据,将数据进行多经度的交叉剖析,可真实还原出用户使用场景和用户使用需求。
如何进行埋点:在你须要统计数据的地方植入统计代码,代码可以自己写,也可以使用第三方统计工具。比如友盟、Google Analysis、Talkingdata等。