解决方案:1.4 了解离线分析系统概念以及处理流程
优采云 发布时间: 2022-11-27 23:25解决方案:1.4 了解离线分析系统概念以及处理流程
1.4 理解离线分析系统的概念和流程任务目的任务列表详细任务步骤任务一:需求分析
一、案例名称
XX网/XX App点击流日志数据挖掘系统
网站分析的主要手段是分析网站的点击流数据。
XX网/XX App点击流日志数据挖掘系统
网站分析的主要手段是分析网站的点击流数据。
(1) 点击流的概念
点击流(Click Stream)是指用户在网站上的持续访问轨迹。这个概念更关注用户浏览网站的整个过程。用户对网站的每一次访问都收录
一系列的点击动作,这些点击行为数据构成了点击流数据(Click Stream Data),代表了用户浏览网站的全过程。
总结:Clickstream其实就是用户每天浏览网站时产生的日志信息。
(2) 对数尺度分析
一般一个中型网站(PV在10W以上,即浏览量)每天会产生1G以上的网页日志文件。大型或超大型网站每小时可能产生 10G 的数据。具体来说,比如电子商务网站,网上团购业务。每日PV数100w,独立IP数5w。用户通常在工作日上午 10:00-12:00 和下午 15:00-18:00 之间看到最多的流量。白天主要通过PC端浏览器访问,休息日和晚上更多通过移动设备访问。网站搜索流量占整个网站的80%,只有不到1%的PC用户会消费,5%的手机用户会消费。
" />
对于这种规模的日志数据,使用Hadoop进行日志分析是最合适的。
二、案例需求说明
“网页点击流日志”收录
网站运营的重要信息。通过日志分析,我们可以知道网站的访问量,哪个网页访问量最多,哪个网页最有价值,广告转化率,访问者来源信息,访问者终端信息等。
网站分析基本指标:
(1) 观看次数 (PV)
定义:Page View,即页面浏览量或点击次数。用户每打开一个页面,就记录一次。
(2) 访问次数
定义:访问次数是Visit,访问者在网站上的会话(Session)次数,一次会话中可能浏览多个页面。
(三)参观人数(UV)
定义:Unique Visitor,即唯一访客数,一天内访问网站的唯一访客数(基于cookies),同一访客在一天内多次访问网站时只算一个访客。
(4)独立IP数量
定义:互联网协议,指的是独立IP的数量。一天之内,访问该网站的不同独立IP的总和。不管同一个IP访问了多少个页面,独立IP的个数都是1。
" />
三、数据来源
张福华先生案例中的数据主要是通过用户的点击行为来记录的。
获取方式:在页面中预先嵌入一个js程序,为页面中需要监控的标签绑定事件。只要用户点击或移动到标签,就可以触发ajax请求到后台servlet程序,并使用log4j记录事件信息。在 Web 服务器(nginx、tomcat 等)上形成不断增长的日志文件。形状像:
58.215.204.118 ‐ ‐ [18/Sep/2019:06:51:35 +0000] "GET /wp-includes/js/jquery/jquery.js?ver=1.10.2 HTTP/1.1" 304 0 "http://blog.fens.me/nodejs-socketio-chat/"
"Mozilla/5.0 (Windows NT 5.1; rv:23.0) Gecko/20100101 Firefox/23.0"
现场分析:
(1)访客IP地址:58.215.204.118
(2)访客用户信息: - -
(3) 请求时间:[18/Sep/2019:06:51:35 +0000]
(4) 请求方式:GET
(5)请求的URL:/wp-includes/js/jquery/jquery.js?ver=1.10.2
解决方案:SEO优化排名技术与SEO排名工具
该监控软件提供网页访问状态是否正常或出现问题的测试反馈信息。在爱站和站长提供的监控结果中,先查看返回状态码。如果代码为404或302,则表示页面处于异常状态。,那么你需要检查网站服务器和内容是否有问题。当网页访问异常时,也可以通过工具返回码判断问题出处。
3.模拟爬行
通过SEO工具的模拟搜索引擎的蜘蛛程序抓取网页,可以清楚的看到页面没有被抓取时存在哪些问题,进而更有效地优化内容。爱站模拟爬取会在页面信息栏中分别显示爬取页面的标题、关键词、网站描述、服务器相关信息。SEO工具也在模拟类似的情况来分析网站的内容状态,并得到如何调整相应词组的优化。
4.相似度查询
重复率或相似度高的站点或内容对搜索引擎和用户的价值不大,而当网站长时间发布内容时,相似度会累积增加,以避免被误认为是制造垃圾信息。爱站提供网页相似度比对查询工具,显示站点内相似页面内容的重复程度,有助于在发布内容时监控识别出的原创性。
5. 网页检查
同一个页面,站长工具提供“元关键词”检查收录引用,“网页关键词密度检查”检查页面关键词是否超标,“死链检查”检查是否页面上有死链接,“网站”“安全和黑客检查”检查网站的各个方面的安全问题。
爱站将各种SEO功能分散在不同的栏目中,例如“Top 20 SEO信息”、“关键词密度查询”、“断链检查”、“安全检查”栏目,也可以在工具栏中找到这些在导航中的具体应用。
" />
4. SEO工具数据
1、综合查询
两大工具平台中都有一个“综合查询”项,可以反映网站的综合状况和相关评价信息,并且会有采集、排名、关键词等相关数据的趋势图,等,可以可视化的方式向企业领导或投资人展示SEO优化的结果,为决策提供可靠的参考。
2.历史查询
爱站“历史数据”SEO工具可以一次全面展示一个月、三个月、半年的词量、词重历史数据。站长分别使用各个搜索引擎的PC端和移动端查询栏目,但提供了7天、30天、90天和自定义时长的历史跨度选择功能。当网站遇到掉电时,需要用到这个工具来查询具体权重变化的记录。
3.重量查询
网站的权重决定了预期流量的大小。爱站和站长都提供了国内主流搜索引擎百度和360平台的权重查询功能,网站还提供了与之密切相关的关键词竞价和索引查询功能。
4.竞争分析
两大优化平台为优化师提供的另一个重要的SEO工具是竞品分析的数据查询分析功能。爱站
是“相关站点”和“关键词竞赛”,站长是“竞赛网站PK”和“关键词竞价查询”。从中可以查询到所有相关的话题和具有相同或相似关键词状态的竞争对手(也可以查看中国屏蔽的禁止词),包括他们的权重、排名、响应速度、反链情况,title,关键词,description,采集
等,这些都是分析竞争对手的重要参考信息,可以让我们对整体环境和当前的强势竞争对手有一个清晰的认识,
" />
5.失效链接检查
网站的死链接状态是每个周期必须检查的项目。在工具平台中,您可以通过“Broken Link Check”项目来检查网站或带链接的权重页面。国内大部分网站都可以用百度蜘蛛来模拟。有环保业务或需求的网站也需要测试谷歌蜘蛛模拟。在这里也可以识别友情链接是否有问题,尤其要注意显示为“非法链接”的项目,及时处理,避免降低首页权限的可能或重量较大的页面。
5. 搜索引擎优化工具的机器人检查
大部分网站都需要部署Robots文件,让指定的搜索平台蜘蛛程序进入指定的文件进行爬取,同时实现站点内文件的保密性,也节省了蜘蛛资源,方便它们去important 目录以查找应抓取的文件。文件,提高其效率将获得比对手更多的优势。但是,网站优化人员或其他管理人员要注意,被阻止抓取的目录实际上是满足操作需要的,否则该目录下的文件无论怎么优化都不会被收录。
为什么两大优化平台都提供专门的SEO工具“robots check” 在查询结果中,如果User-agent标签设置为*(通用字符),则表示允许所有搜索引擎抓取。Robots 文件还包括 URL 的设置标签。Disallow acceptable 标签指定哪些路径不允许被爬取,Allow allowable 标签指定哪些路径允许被爬取。
特别要注意站点地图站点地图的指向。如果觉得网站结构不合理或者确实是高手搭建的,可以使用site-map辅助搜索引擎完成收录工作,但是当网站结构比较合理时,就需要做出谨慎的决定,谨防多余的添加会使后续优化工作复杂化。
6.官方常用SEO工具
百度、谷歌、搜狗、360好搜都有官方的网站SEO工具,甚至可以借助各领域大型网站平台提供的其他软件进行辅助,但大多需要激活搜索引擎平台的营销功能。常用的官方功能包括索引、流量统计、站点地图、站点搜索、词库、快照、关键词、链接提交与检测、蜘蛛爬行与分析、HTTPS申请与修改、站点关闭等相关服务。