解决方案:基于大数据的网站用户行为数据采集系统的*敏*感*词*法
优采云 发布时间: 2022-12-20 06:53解决方案:基于大数据的网站用户行为数据采集系统的*敏*感*词*法
本实用新型涉及一种数据采集系统,尤其涉及一种基于大数据的网站用户行为数据采集系统。
背景技术:
目前,在大型网站中,需要采集登录用户和未登录用户的行为数据。 网站运营商可以通过对采集的数据进行分析,帮助改善网站的栏目结构,提升用户体验,实现用户商业化。 行为分析、信息推送、广告投放等
传统的网站用户行为采集方案,基本都是在网站应用中部署采集代码和采集处理程序,通过网站应用本身对用户行为数据进行采集和采集,并将用户行为数据直接记录到网站数据库或应用本身在日志文件中,这样的方案会带来三个问题:
(1)网站应用除处理网站业务外还需承担其他工作。 随着用户访问量的增加,服务器资源消耗非常大,网站应用的性能会明显下降,网站应用的故障率会逐渐增加;
(2)网站应用的数据库服务需要承受高频的用户行为数据写入操作,数据库的数据存储容量日益增大,数据库的性能逐渐下降。 随着行为数据的日益增多,数据库服务器的运行风险也呈现出越来越大的趋势,服务器磁盘故障率也会非常高。
(3)当用户行为数据量变得海量时,传统的数据库查询已经无法应对海量数据的查询、分析和统计。 传统网站会造成服务器崩溃、瘫痪。
此外,对于大型或超大型门户网站来说,大型和超大型门户网站的应用系统基本上都是以分布式集群的方式部署在多台服务器上,网站系统的部署基于多台服务器。 - 节点应用,去中心化,这给用户行为数据的采集带来了很大的麻烦。 海量的用户行为数据和分散的数据文件存储成为制约用户行为大数据分析的主要矛盾。
技术实现要素:
本实用新型提出了一种基于大数据的网站用户行为数据采集系统,包括接入终端、安装有网站插入码的网站服务器、网络交换机、用户行为数据采集服务器、数据采集云存储、大数据。存储HDFS,所述网站服务器、数据采集服务器、数据采集云存储NAS、大数据存储HDFS均与网络交换网络相连;
网站插件代码安装在网站服务器上,文件数据传输部分安装在用户行为数据采集服务器上,文件数据采集部分安装在数据采集云存储中,大数据存储HDFS是一个数据存储,安装有支持内存的存储系统和用户行为数据的数据库。
网站插入代码包括用户行为数据采集脚本文件和脚本代码; 用户行为数据采集服务器包括采集组件,用于采集用户行为数据采集脚本文件和脚本代码采集的用户行为数据,将用户行为数据重组为指定规格的用户行为数据包数据转换部分,发送部分将用户行为数据包通过HTTP协议发送给用户行为采集服务器; 文件数据传输部分将用户行为数据包放入用户行为日志文件的数据转换部分,用户行为日志文件发送至数据采集云存储的传输部分; 数据采集云存储包括数据接收部分和数据存储部分,数据接收部分接收文件数据传输部分发送的用户行为日志文件,数据存储单元采集数据接收部分接收到的用户行为日志文件。零件; 文件数据采集组件包括数据监控组件,监控云存储上不断增加的用户行为日志文件进行监控数据采集,并将日志文件实时数据传输至大数据存储数据传输部分; 大数据存储HDFS包括数据存储、支持存储的存储系统和用户行为数据数据库。
接入终端包括手机、PC和平板电脑。
有益效果:本实用新型基于大数据的网站用户行为数据采集系统采用分布式集群部署,用户行为数据采集与网站应用本身分离,有效降低了用户行为数据采集对网站应用的影响。性能和网站服务器性能资源。 影响。 脱离了网站用户行为的数据库存储和数据采集方式,分离了用户行为数据对数据库服务器的依赖,有效解决了海量数据的查询、分析和统计问题,以及大数据量的问题。网站服务器的CPU、内存等资源消耗。
图纸说明
图1是基于大数据的网站用户行为数据采集系统架构图;
图2是一种基于大数据的网站用户行为数据采集系统结构*敏*感*词*。
详细说明
实施例一:如图1所示,一种基于大数据的网站用户行为数据采集系统,包括接入终端、安装有网站插入码的网站服务器、网络交换机、用户行为数据采集服务器、数据采集云存储,以及大数据存储HDFS,所述的网站服务器、数据采集服务器、数据采集云存储NAS、大数据存储HDFS均与网络交换网络相连;
如图2所示,网站插件代码安装在网站服务器上,文件数据传输部分安装在用户行为数据采集服务器上,文件数据采集部分安装在数据采集云存储中,大数据存储 HDFS是一种数据存储,安装了支持该存储的存储系统和用户行为数据数据库。
网站插入代码包括用户行为数据采集脚本文件和脚本代码; 用户行为数据采集服务器包括采集组件,用于采集用户行为数据采集脚本文件和脚本代码采集的用户行为数据,将用户行为数据重组为指定规格的用户行为数据包数据转换部分,发送部分将用户行为数据包通过HTTP协议发送给用户行为采集服务器; 文件数据传输部分将用户行为数据包放入用户行为日志文件的数据转换部分,用户行为日志文件发送至数据采集云存储的传输部分; 数据采集云存储包括数据接收部分和数据存储部分,数据接收部分接收文件数据传输部分发送的用户行为日志文件,数据存储单元采集数据接收部分接收到的用户行为日志文件。零件; 文件数据采集组件包括数据监控组件,监控云存储上不断增加的用户行为日志文件进行监控数据采集,并将日志文件实时数据传输至大数据存储数据传输部分; 大数据存储HDFS包括数据存储、支持存储的存储系统和用户行为数据数据库。
基于大数据的网站用户行为数据采集系统的工作步骤包括:
(1)网站内嵌代码步骤,网站开发者在网站页面内内嵌代码,内嵌用户行为数据采集脚本文件和脚本代码;
(2)采集用户行为数据的步骤。 当用户访问网站页面时,用户行为数据采集脚本文件和脚本代码采集用户行为数据,并将数据重组为指定规格的用户行为数据包,通过用户行为数据包发送给用户行为数据。 HTTP 协议。 采集服务器发送;
(3)将用户行为数据包转化为用户行为日志文件的步骤,用户行为采集服务器接收网页发送的用户行为数据包,使用OpenResty组件将数据包转化为用户行为日志文件;
(4)将用户行为日志文件发送至数据采集云存储步骤,在用户行为采集服务器上部署Linux Shell脚本,定期将用户行为日志文件发送至统一数据采集云存储;
(5)将不断增加的用户行为日志文件中的数据实时传输到大数据存储中,使用监控数据工具进行监控,将不断增加的用户行为日志文件采集到云存储中NAS,实时将日志文件中的数据传输到大数据存储;
(6)大数据存储步骤,采用HDFS作为大数据存储,所有用户行为数据都存储在HDFS中。
进一步优选地,OpenResty组件为Lua和Nginx绑定的ngx_lua模块(Nginx+Lua); 数据采集云存储为NAS云存储; 监控数据工具为Flume。
进一步优选的,将不断增加的用户行为日志文件中的数据实时传输至大数据存储的步骤采用监控数据工具监控云存储NAS上新增的用户行为日志文件,采用增量传输方式 将日志文件中的数据实时传输到大数据存储中。
进一步优选的,文件数据采集模块包括数据监控模块,用于监控数据采集云存储新增用户行为日志文件,并将日志文件中的新增数据实时传输至大数据存储数据传输模块;
示例2:网站用户行为数据采集解决方案由六个功能组件组成:网站代码插入、用户行为数据采集服务器、文件数据传输组件、数据采集云存储、文件数据采集组件、大数据存储HDFS。
网站插入代码是一个javascript脚本文件,是放置在网页上的一段javascript脚本代码,用于采集用户行为数据;
用户行为数据采集服务器是专门采集网站插件脚本发送的用户行为数据,并将用户行为数据记录到日志文件中的专用服务器;
文件数据传输组件是将用户行为数据采集服务器产生的日志文件传输到统一的数据存储空间的工具;
数据采集云存储是专门用于汇总所有用户行为数据日志文件的NAS存储空间;
文件数据采集组件是从NAS存储空间监控用户行为数据日志文件,并将新增的日志文件采集到大数据存储中的工具;
大数据存储 HDFS是一种存储所有用户行为日志数据的存储。
应用基于大数据的网站用户行为数据采集方法的方案如下: 在网站页面插入代码。 当用户访问网页时,代码插入脚本向后台发送用户行为数据请求,用户行为采集数据服务器接收。 请求,登陆成一个日志文件,文件是一个数据传输组件,将所有的日志文件聚合到一个统一的NAS存储,然后文件数据采集组件将日志文件数据实时传输到大数据存储。
其工作流程如下:Nginx+Lua生成用户行为日志,由Linux Shell发送到数据采集云存储(NAS/FTP),Flume将采集的日志文件存储在大数据存储HDFS上。
具体的:
网站开发者在网站页面插入代码,插入用户行为数据采集脚本文件和脚本代码;
当用户访问网站页面时,用户行为数据采集脚本和脚本代码采集用户行为数据,并将数据重新组装成指定规格的数据包,通过HTTP协议发送;
用户行为采集服务器接收网页发送的用户行为数据包,使用Nginx+Lua程序将数据包转换为用户行为日志文件;
在用户行为采集服务器上部署Linux Shell脚本,定期将用户行为日志文件发送至统一数据采集云存储NAS;
使用Flume工具程序监控数据,采集云存储中不断增加的用户行为日志文件,并将日志文件中的数据实时传输到大数据存储;
使用HDFS作为大数据存储,将所有用户行为数据存储在HDFS中。
用户行为数据通过网页中插入的Javascript脚本进行采集和发送,而JavaScript脚本运行在客户端浏览器上,因此用户行为数据的采集不依赖于网站应用的服务器端,实现了同网站应用分离不影响网站性能;
通过用户行为采集服务器实现用户行为数据的采集。 由于采用Nginx+Lua程序,既轻量又高性能,日志数据存储在HDFS中,完全脱离了对数据库服务的依赖;
HDFS是一种支持大数据存储的数据存储服务。 支持海量数据的存储、查询、分析、统计。 当数据量急剧增加时,HDFS可以提供比专业关系型数据库更高性能的数据查询服务。
官方数据:提升网站权重,稳定词库,1个月到权重3
说说我之前做的一个案例,每天原创10篇,一个月后权重达到2,流量达到1000左右,我是怎么做到的? 其实答案就是写作,没有采集,没有外链,没有快速排序,没有作弊,纯手写。
也许在你眼里,我是个傻子,但就是这样一个傻子,用真本事做出了weight to weight 2。 当然我今天要说的不是这个,而是如何快速提升网站权重,稳定词库,从1个月到3个月?
首先,我们要明白,我们所说的权重,基本上取决于站长之家的br。 假设我们的网站从0开始,如何快速提升权重呢?个人认为主要有3个步骤:引蜘蛛、找词库、批量上传内容
1.领先的蜘蛛
如果是老域名,不用说,蜘蛛可以在百度资源平台后台看到爬取的频率。
二、找词库
我们都知道,站长之家的br取决于站长之家数据库中关键词的来源流量。 当达到一定的阈值时,br就会发生变化,所以我们要挖词库,用的最多的词库就是挖矿。 同行的词库(index 50以下),尽量找20个同行,这些词库可以省下来,如果你挖网站的词库也是可以的。
3.内容布局
蜘蛛爬行情况正常,词库可用。 我们如何上传内容? 此时我们有两个选择,一是像我一样老老实实更新正文,二是依靠技术来实现。 让我举一个例子。 比如我们可以取一个关键词,然后我们用python把这个关键词的相关词取下来,组合成标题。 同时我们需要去python中提取word的相关内容作为gain内容,然后导出csv文件。 然后用工具导入到cms中,这样内容更新很快,效果也比较明显。