excel自动抓取网页数据(运营精细化如何通过品牌沉淀的数据挖掘出更多优化可能)
优采云 发布时间: 2022-01-23 01:18excel自动抓取网页数据(运营精细化如何通过品牌沉淀的数据挖掘出更多优化可能)
前言
随着运营的精细化发展,如何通过品牌积累的数据挖掘更多的优化可能性,是每一个运营、产品乃至技术的必修课。本篇文章将主要讲解我是如何分析官网流量数据,从发现问题、猜测、验证猜测、事件分类四个方面找出问题的。
(本文出现的工具有CNZZ后端和Excel2013)
本次以朋友的网站作为演示数据,选取2016年7月25日至2016年8月7日,分别为2016年第31周和第32周的数据。周数据是因为网站刚结束第32周的付费广告投放,所以网站的流量存在巨大差异,属于典型。CNZZ的后台流量如图:
选择图右下方的“更多指标”,选择当前核心指标,如PV、UV、平均访问时长、跳出率;图中,“小时”改为“天”。
然后我们通过观察图上半部分的对比数据来提问:
1、为什么两周的流量数据大面积变差了?如何找出原因是哪一天或哪一列?
2、为什么独立访问者(UV)和新独立访问者(NUV)的差异大约是4.5倍,而浏览量(PV)的差异只有1.5倍?
3、为什么两周内UV趋势(橙线)相似,而PV趋势(蓝线)在7-26和7-29有波谷和波峰?
目前我们所知道的最大变化是付费广告在第 31 周开启,在第 32 周关闭。8-1号关门时间是几点?是早上关门还是下班后关门?网站该负责人表示“好像是8-1的早上”,但分析师不相信“好像”,只能通过数据来验证。
这时,我们可以做出的合理猜测是(猜测问题1=d1,下同):
d1:两周流量数据大面积变差,因为关闭了广告,但是CNZZ显示的具体小时和栏目数据无法直观得出,具体数据需要分析。
d2:UV和NUV的区别类似。可能本周的数据增长大部分来自新的独立访问者,而着陆页对新访问者的吸引力不是很大,因此大多数新访问者并没有产生更多的点击,这也解释了为什么第一次跳出率在 32 周时增加。
d3:7-26对应8-2,7-29对应8-5。分别出现的波峰和波谷的原因没有记录在SEO日志表中。我们暂时无法给出猜测,只能查看具体数据。
网站日志中只记录8-1封闭付费推广
猜测前先问问网站的负责人,网站近期有没有修改或者变化,有没有忘记记录的事情,其他部门有没有做过任何线下促销等,合理猜测 网站 日志记录的已知条件和分析师经验。
在Excel中打开CNZZ记录的两周访问详情(出于隐私考虑,将主域名改为我的微信feels),根据以下猜测进行分析:
1、付费广告到底是什么时候停止的?
过滤日期(8-1~8-7)中的第32周数据,过滤“页面来源”(标有“ipinyou”的站点)中标记的付费来源链接,确认,结果如图所示图。
最后一个带付费标签的来源时间是2016-8-1 9:56:43,推断负责人是周一上班后10:00左右关闭的付费广告早晨。
2、在这次流量变化中,关闭付费广告的影响有多大?
选择所有 7-25~8-7 以访问详细数据并创建新的数据透视表。
将“页面来源”和“访问页面”放在行中,将“周数”放在列中,将“IP”放在值计数中,观察两周的整体数据对比,发现自然流量+付费流量为7141-2745=4396,然后过滤付费链接流量的差异,得到付费广告的影响。
在“页面来源”和“采访页面”两个字段中使用标签“不收录”过滤掉付费标签“ipinyou”,如图:
现在我们得出结果,第31周和第32周的付费流量相差7141-3834=3307,2745-2593=152,这就是切换付费广告对网站@的流量的具体影响>。那么网站流量变化都是付费流量切换引起的?通过上图中的计算结果,我们知道并非如此。排除付费流量,我们还是有3834-2593=1241的自然流量差。是什么原因?
3、您的自然流量中有多少是您自己公司的用户?
请网络管理员了解公司的网线是否分多条线,公司所有主机当前对应的IP地址或IP段是多少。因为选择时间长,不可能知道当时公司的内部IP段,所以忽略了这一步。
4、自然流量的差异是由哪些页面和哪些时间段造成的?
将字段“日期”和“小时”添加到行,选择降序,调整值显示方式比较32周的差异,选择区域中的值,更改条件格式→项目选择规则→前10项,填充粉色,重复这一步,选择最后10项,用*敏*感*词*填充,最终效果如图。
(粉色代表页面31周数据多于32周,如“直接访问书签”31周源流量多于32周;*敏*感*词*表示页面32周数据多于31周,如“”32周比 31 周多 32 个源流量1)
发现正值相差超过200的页面有“”、“”、“”,负值超过200的页面有“”。
分析步骤相同。我们以“”页面为例。为什么这个页面在 31 周内比在 32 周内多出 267 次?将“IP”、“访问者新旧属性”、“访问页面”、“区域”等字段一次放入进行中,日期降序排列如图:
从“”、“”、“”三个页面可以发现,这三个页面的流量来自于7日-29日早上6:00。
同时我们发现了一个可疑的IP字段,用了两天的“222.16.42.***”,看看这个IP段到底是什么,所以在“IP”字段中过滤掉“222.16.42.***”
有趣的是,这个IP段只在第31周每天早上6点到7点之间活跃,如图:
因此得出结论,31周和32周的自然流量差异是由2016年7月29日早上6-7点之间的“”、“”、“”三个页面造成的,访问用户都是新访客。,而且这些页面不是内容页面,访问时间也不规律。目前缺少条件,所以只能推断human > machine,放入事件数据库,然后观察。
5、5、唯一身份访问者(UV)和新唯一身份访问者(NUV)之差约为4.5倍,而浏览量(PV)之差仅为1. 5次,是不是因为付费广告落地页不符合用户体验。如果是这样,新老访问者输出了多少PV?
根据“新老访问者属性”字段统计,新老用户分别在31周和32周贡献了7141和2745的流量,约等于页面浏览量(PV)值。
点击查看大图
然后我们分别过滤新老用户的流量值,老用户流量值为2915和1895,如图:
新增用户流量值为4226和850,如图:
最后我们发现全站每周流量变化为7146/2745=2.60;老用户周流量变化为2915/1895=1.54;新用户周流量变化为4226/850=5.00。
新用户PV数的变化≈两周内新增独立访问者数量的变化,因此我们可以得出结论,第31周的数据增长大部分来自新的独立访问者。推测是落地页对新访问者的吸引力不是很大,或者是定位目标人群。不精确。(也可以通过受访页面数据的付费链接跳出率分析来分析哪个页面最差,相应的改进就不赘述了,留给读者自己思考)
6、流量趋势中,7-26对应8-2,有流量谷。是单页造成的吗?
对比 7-26 和 8-2 的流量,我们发现是因为 8-2 的全站流量下降,而不是单页造成的。
那为什么在8-2这一天整个流量都下降了呢?当我带着这个奇怪的现象再次询问网站的负责人时,他想了想说:“哦,对不起,我忘了告诉你,8-2号台风“奈达”来了,公司放假一天。” 哈哈,我抓到了一个忘记写网站日记的人。让我们通过新老用户的流量变化来检查一下。
新用户流量变化如图,过渡平稳:
老用户流量变化如图:8日和2日流量当天大幅下降,确实是老用户造成的。来自企业员工的访问占自然流量的很大一部分。
总而言之,我们已经验证了所有提出的猜测。
在整个过程中,你应该已经发现,所有的分析逻辑都是从大到小,从整体流量趋势开始,找出哪一周、哪一天、哪一小时、哪一栏、哪一页有问题。从已知记录中做出合理的猜测,然后用数据验证猜测。过程中没有高深的技巧,只要有一颗心把问题问到底。
在例子中,很多人理所当然地认为,32周相比31周流量大幅下降是因为付费广告关闭,不再继续分析,而忽略了一个大问题——整体流量下降确实不代表所有列。流量下降了,如图:
为什么在整体流量下降的情况下,32周的“”页面却显着增加?流程我就不写了,直接给结论吧,因为从第8-4天9点28分开始,技术已经在这个页面设置了内容采集,并且自动从其他站,每隔一分钟发布一次,证据如图:
通过Excel中的数据分析,可以发现很多问题,甚至有同事用流量宝刷流量,被我曝光了……本次分享只列出了一些常用的分析方法和逻辑,旨在让大家感受一下看看Excel在数据分析中的作用。
对于分析师来说,什么是“事件分类”?换言之,就是积累的“经验”。比如每逢节假日,网站的流量会有怎样的变化,公司的宣传对流量的增加影响最大,而一旦停止广告,网站的真实流量又从哪里来?来自等,将这些经历记录在笔记中。,随着时间的推移从初学者成长为高级分析师。但话又说回来,总会有你无法通过 Excel 猜测或分析的问题,比如爬虫模拟人类行为、设置不同的 UA、时不时爬取等等。当你遇到暂时无法解决的问题时,有一个“难题库”,
最后要说的是,Excel作为最流行的数据分析工具,门槛低、功能强、性价比高。只要你保持强烈的好奇心和一点软件技能,每个人都可以成为数据分析师。
针鼹 说
这个文章是一个案例,也是一个方法,几乎*敏*感*词*的告诉你如何通过数据定位问题。
爱奇菌经常在后台收到朋友的提问:
最近点击量突然增加,但转化率并没有提高。是否有恶意点击?
最近网站的流量突然下降了,但是我什么都没做,为什么会这样?...等等。
那么结论大致就是:“一定是恶意点击!” 或者“淡季来了”或者“X度系统又用尽了……”
在得出这些结论之前,您是否从客观数据中推断出您想要的答案?
爱奇菌建议大家按照作者的思路,拿自己账户的数据,进行一些分析和推敲,相信会有很大收获。