0.数据采集0.目标网址获取.7框架选用

优采云 发布时间: 2021-08-11 04:05

  0.数据采集0.目标网址获取.7框架选用

  上一篇文章我们已经完成了数据的采集,并将数据存储在mysql中。现在继续后续的数据分析工作,先发布项目流程:

  0.主进程0.数据采集

  0.获取目标网址

  1.Crawler 框架选择

  注意:此步骤请登录后了解

  或

  1.数据处理

  不知为何采集的最后960条记录被我误删了--_--(而且没有备份)

  

  所以我再次采集,这次只有采集 有附加评论的订单。如图:

  

  

  比较抓取到的数据与网页基本一致。

  0.数据存储

  数据库是mysql5.7版本。数据库的配置和安装这里就不介绍了。杜娘的教材很多!

  1.数据清理

  好了,进入正题,我们开始整理资料。初步观测数据较为完整,无缺失值。但是要专业的分析sql代码,还是要打下来!如下:

  select id from iphonex where 当天评论 is NULL or 追加评论 is NULL;

#选择评论为空的id

update iphonex set 当天评论=replace(当天评论,'此用户没有填写评论!','0');

#消除 ’此用户没有填写评论!’ 的字符值

update iphonex set 当天评论=replace(当天评论,',',',');

update iphonex set 追加评论=replace(追加评论,',',',');

#把英文的逗号改为中文格式,方便以后导出csv格式

update iphonex set 机身颜色=机型;

update iphonex set 存储容量=机型;

update iphonex set 机身颜色=replace(机身颜色,'网络类型:无需合约版;机身颜色:','');

update iphonex set 机身颜色=replace(机身颜色,';存储容量:256GB','');

update iphonex set 机身颜色=replace(机身颜色,';存储容量:64GB','');

update iphonex set 存储容量=replace(存储容量,'网络类型:无需合约版;机身颜色:银色;存储容量:','');

update iphonex set 存储容量=replace(存储容量,'网络类型:无需合约版;机身颜色:深空灰色;存储容量:','');

update iphonex set 存储容量=replace(存储容量,'GB','');#去除多余信息

  这里需要注意的是,首先使用图形工具MySQL-Front添加2个字段

  

  

  update iphonex set comment of the day=replace(comment of the day,',',',');

  update iphonex set add comment=replace(add comment,',',',');

  注意这两个代码。原创值和修改值分别为英文逗号和中文逗号。将文件保存为csv时必须注意问题。 (当然你也可以选择空格或制表符,那你就得替换多余的空格和制表符了)运行代码后,修改存储容量属性为int类型

  

  结果如图:

  

  2.数据初步分析

  导出数据:

  

  数据格式为csv,数值之间用逗号隔开。然后用数据分析图形工具spss打开数据(当然你也可以选择excel)

  如图所示:

  

  

  spss 配置和安装?对不起,杜娘。

  好了,一切都准备好了! ! ! ! ! !

  订单完成交易时间与计数关系图:

  

  初步分析可以发现,销量最高的两个日子是11月30日和12月16日,比较符合实际。双11和双12之间销量最高(快递一般最迟7天?)。

  模型和数量的饼图:

  

  车身颜色和计数图表:

  

  灰色更受欢迎! ! !

  

  这有点奇怪,64和256差不多,不过我感觉比256还多?

  

  

  同一天添加评论的人更多。评论的可靠性是平均的。因为很多人评论的时候并没有经历太多。

  突然忽略了一个重要的问题-----------价格。因为64GB和256GB的价格不一样,第一张图只能证明销量,不能证明销量。如果要分析销售额,则需要对数据进行一些处理。需要做变量替换,即64GB=8388元,256GB=9688元再分析。 (这里不展开了!!)

  好了,初步分析到这里就完成了。当然,实际上隐藏着很多有用的信息。要挖掘出这些,还需要不断积累经验! !数据挖掘应该放到下一篇文章Done!下面介绍上一篇文章crawler

  提到的天猫securitymatrix技术

  2.数据挖掘

  0.文本挖掘

  1.用户情绪分析

  1.难点说明0.关于天猫安全矩阵技术

  关于securitymatrix,博主先介绍securitymatrix:

  Security Matrix(安全矩阵)是一家专门从事信息安全产品和服务、应用数学技术和密码技术的技术和学术研究机构。聚集了一批致力于数学技术、密码技术、信息安全等领域的优秀专业人才。技术研究及相关软件产品研发在国内信息安全领域独树一帜。目前,安全矩阵以专业的安全服务为核心,已开发出商用密码系统及相关产品、反*敏*感*词*系统、多重安全WEB信息系统、个人防木马包等多种产品。在内容安全、访问安全、Web安全、密码技术、软件保护技术等研究领域取得了多项科研和技术成果。诚信、协作和创新是我们价值观中最重要的部分。在我们的研发和服务过程中,在与客户和*敏*感*词*信息安全研究团队的学习和交流过程中,我们坚持这些原则,并坚信通过我们专业的产品和服务,我们可以为客户创造高价值。社会 。参考网址:

  很多概念?像天书?这和爬虫有什么关系?总结一下!天猫系统其实对爬虫是有一定限制的(还有很多其他限制爬虫的方式比如js打包、登录验证、验证码、ip封...),比如:重定向(是什么?杜娘)。与京东相比,天猫的抓取难度要大得多。因此,要更深入地爬取天猫,还有很多突破! ! ! !所以希望大家多多交流分享经验!

  换个角度想想。事实上,当我们快速、海量(分布式)抓取天猫的数据时。对天猫有一定影响。天猫不仅可能会泄露一些重要信息,还会增加天猫服务器的负担。 (爬虫侵权的例子很多:eBay起诉Bidder's Edge)一定要遵守法律法规,好好爬! ! ! ! ! (对我这个新手来说,这好像是做梦啊哈哈哈)

  最后引用 Ryan Mitchell 的话:时间就是一切,请限制你的爬虫,time.sleep(3).

  1.关于机器学习

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线