0.数据采集0.目标网址获取.7框架选用
优采云 发布时间: 2021-08-11 04:050.数据采集0.目标网址获取.7框架选用
上一篇文章我们已经完成了数据的采集,并将数据存储在mysql中。现在继续后续的数据分析工作,先发布项目流程:
0.主进程0.数据采集
0.获取目标网址
1.Crawler 框架选择
注意:此步骤请登录后了解
或
1.数据处理
不知为何采集的最后960条记录被我误删了--_--(而且没有备份)
所以我再次采集,这次只有采集 有附加评论的订单。如图:
比较抓取到的数据与网页基本一致。
0.数据存储
数据库是mysql5.7版本。数据库的配置和安装这里就不介绍了。杜娘的教材很多!
1.数据清理
好了,进入正题,我们开始整理资料。初步观测数据较为完整,无缺失值。但是要专业的分析sql代码,还是要打下来!如下:
select id from iphonex where 当天评论 is NULL or 追加评论 is NULL;
#选择评论为空的id
update iphonex set 当天评论=replace(当天评论,'此用户没有填写评论!','0');
#消除 ’此用户没有填写评论!’ 的字符值
update iphonex set 当天评论=replace(当天评论,',',',');
update iphonex set 追加评论=replace(追加评论,',',',');
#把英文的逗号改为中文格式,方便以后导出csv格式
update iphonex set 机身颜色=机型;
update iphonex set 存储容量=机型;
update iphonex set 机身颜色=replace(机身颜色,'网络类型:无需合约版;机身颜色:','');
update iphonex set 机身颜色=replace(机身颜色,';存储容量:256GB','');
update iphonex set 机身颜色=replace(机身颜色,';存储容量:64GB','');
update iphonex set 存储容量=replace(存储容量,'网络类型:无需合约版;机身颜色:银色;存储容量:','');
update iphonex set 存储容量=replace(存储容量,'网络类型:无需合约版;机身颜色:深空灰色;存储容量:','');
update iphonex set 存储容量=replace(存储容量,'GB','');#去除多余信息
这里需要注意的是,首先使用图形工具MySQL-Front添加2个字段
update iphonex set comment of the day=replace(comment of the day,',',',');
update iphonex set add comment=replace(add comment,',',',');
注意这两个代码。原创值和修改值分别为英文逗号和中文逗号。将文件保存为csv时必须注意问题。 (当然你也可以选择空格或制表符,那你就得替换多余的空格和制表符了)运行代码后,修改存储容量属性为int类型
结果如图:
2.数据初步分析
导出数据:
数据格式为csv,数值之间用逗号隔开。然后用数据分析图形工具spss打开数据(当然你也可以选择excel)
如图所示:
spss 配置和安装?对不起,杜娘。
好了,一切都准备好了! ! ! ! ! !
订单完成交易时间与计数关系图:
初步分析可以发现,销量最高的两个日子是11月30日和12月16日,比较符合实际。双11和双12之间销量最高(快递一般最迟7天?)。
模型和数量的饼图:
车身颜色和计数图表:
灰色更受欢迎! ! !
这有点奇怪,64和256差不多,不过我感觉比256还多?
同一天添加评论的人更多。评论的可靠性是平均的。因为很多人评论的时候并没有经历太多。
突然忽略了一个重要的问题-----------价格。因为64GB和256GB的价格不一样,第一张图只能证明销量,不能证明销量。如果要分析销售额,则需要对数据进行一些处理。需要做变量替换,即64GB=8388元,256GB=9688元再分析。 (这里不展开了!!)
好了,初步分析到这里就完成了。当然,实际上隐藏着很多有用的信息。要挖掘出这些,还需要不断积累经验! !数据挖掘应该放到下一篇文章Done!下面介绍上一篇文章crawler
提到的天猫securitymatrix技术
2.数据挖掘
0.文本挖掘
1.用户情绪分析
1.难点说明0.关于天猫安全矩阵技术
关于securitymatrix,博主先介绍securitymatrix:
Security Matrix(安全矩阵)是一家专门从事信息安全产品和服务、应用数学技术和密码技术的技术和学术研究机构。聚集了一批致力于数学技术、密码技术、信息安全等领域的优秀专业人才。技术研究及相关软件产品研发在国内信息安全领域独树一帜。目前,安全矩阵以专业的安全服务为核心,已开发出商用密码系统及相关产品、反*敏*感*词*系统、多重安全WEB信息系统、个人防木马包等多种产品。在内容安全、访问安全、Web安全、密码技术、软件保护技术等研究领域取得了多项科研和技术成果。诚信、协作和创新是我们价值观中最重要的部分。在我们的研发和服务过程中,在与客户和*敏*感*词*信息安全研究团队的学习和交流过程中,我们坚持这些原则,并坚信通过我们专业的产品和服务,我们可以为客户创造高价值。社会 。参考网址:
很多概念?像天书?这和爬虫有什么关系?总结一下!天猫系统其实对爬虫是有一定限制的(还有很多其他限制爬虫的方式比如js打包、登录验证、验证码、ip封...),比如:重定向(是什么?杜娘)。与京东相比,天猫的抓取难度要大得多。因此,要更深入地爬取天猫,还有很多突破! ! ! !所以希望大家多多交流分享经验!
换个角度想想。事实上,当我们快速、海量(分布式)抓取天猫的数据时。对天猫有一定影响。天猫不仅可能会泄露一些重要信息,还会增加天猫服务器的负担。 (爬虫侵权的例子很多:eBay起诉Bidder's Edge)一定要遵守法律法规,好好爬! ! ! ! ! (对我这个新手来说,这好像是做梦啊哈哈哈)
最后引用 Ryan Mitchell 的话:时间就是一切,请限制你的爬虫,time.sleep(3).
1.关于机器学习