网站内容采集系统(分布式网站日志采集方法实施例--本发明分布式技术)

优采云发布时间: 2021-09-07 05:16

　　专利名称：一种分布式网站日志数据采集方法和一种分布式网站系统生产方法

　　技术领域：

　　本发明涉及互联网数据处理技术，特别是分布式网站log采集方法。

　　背景技术：

　　随着互联网的普及，为了提高互联网应用中的数据处理速度，满足不断增长的数据量需求，许多大型网站逐渐采用了分布式网络结构，主要是为了实现负载均衡。

　　分布式结构使用多台服务器，与前端WEB服务角色相同。这种结构极大地方便了服务分发的规划和可扩展性。另一方面，多台服务器的分布式设置，使得网络日志数据的分析统计也有些麻烦。

　　比如我们使用比较常用的web分析工具webalizer，对于分布式网络结构，需要分别对每台服务器进行日志数据统计，会带来以下问题

　　1、数据的采集带来了很多麻烦。比如统计总访问量，需要把指定时间段内的服务器1(SERVER1), server 2(SERVER2)...;

　　2、影响独立访问次数、独立站点等指标的统计。基于网络分布式网络结构的特点和负载均衡的机制，以上指标的统计并不是基于服务器上数据的代数加法。

　　另外，基于以上问题，在每台服务器上配置日志数据分析功能，会增加服务器环境的复杂度，降低服务器运行的安全性能；并且分布式结构中各个服务器的日志数据分析功能需要保持一致。当某台服务器上的日志数据分析功能发生变化时，为了实现全网数据的统计，所有服务器上的日志数据分析功能都必须自适应变化，使得数据完整性难以监控，并且增加了维护成本。因此，分布式网站的可扩展性和部署在一定程度上受到限制。

　　发明内容

　　本发明实施例提供了一种分布式网站log采集方法。目的是降低网络期刊数据统计的复杂度，提高分布式网站的可扩展性。

　　为了解决上述技术问题，本发明提供的分布式网站log采集方法实施例

　　通过以下技术方案实现

　　一种分布式网站日志数据采集方法，包括净化WEB服务器的日志数据，并将净化后的日志数据上传到集中处理服务器；集中处理服务器将接收日志根据文档合并成一个文件。

　　上述方法中，WEB服务器在上传日志数据前对清洗后的日志数据进行压缩，并标记服务器ID；集中处理服务器根据服务器列表和服务器ID判断预定进行日志数据上传的WEB服务器是否有日志数据到达。

　　基于上述方法，在将日志数据上传到WEB服务器之前，还为压缩后的日志数据文件生成第一验证文件，并将第一验证文件发送到集中处理服务器；集中处理服务器使用与WEB服务器相同的验证算法，为获取的日志数据文件生成第二个验证文件，如果第一个验证文件与第二个验证文件不同，则触发WEB服务器重新上传日志数据文件。

　　本发明相应实施例还提供了一种分布式网站系统，包括WEB服务器和集中处理服务器；其中，WEB服务器用于对保存的日志数据进行净化，将净化后的日志数据上传到集中处理服务器；集中处理服务器将接收到的日志数据文件合并为一个文件。

　　在上述体系结构的基础上，进一步利用WEB服务器对清洗后的日志数据进行压缩并标记服务器ID；集中处理服务器根据服务器列表和服务器ID判断定时执行日志是否到达上传数据的WEB服务器的日志数据。

　　此外，WEB服务器还包括为压缩后的日志数据文件生成第一验证文件，并将第一验证文件发送给集中处理服务器；集中处理服务器也用于使用和WEB服务器相同的验证算法为获取的日志数据文件生成第二个验证文件。如果第一验证文件与第二验证文件不同，则触发WEB服务器重新上传日志。根据文件。

　　从上述技术方案可以看出，本发明在每个Web服务器上报日志数据之前，对上报的日志数据进行了清理，从而减少了集中处理服务器的工作

　　加载；并且，由于本发明中的各个WEB服务器只需要在上报日志数据前进行净化处理，与现有技术相比，不需要在WEB服务器上配置过多的CGI环境(CGI环境为A程序环境)运行在网络服务器上。该程序用于超文本传输协议（HTTP 服务器）与其他终端上的程序交互）或其他特殊要求。只有系统的功能才能满足本程序的要求。 WEB服务器的发明具有更高的安全性，并且本发明在现有技术中没有出现“为了实现全网数据的统计，必须统一改变所有服务器上的日志数据分析功能”，因此本发明的系统部署简单，提高了系统的可扩展性。

　　进一步地，基于上述方法的实现，本发明的集中处理服务器可以对采集收到的日志数据文件进行加工合并处理，从而避免了由于登录到两个以上服务器的可能对用户访问数据上传造成的数据统计不准确，最终会提高日常日志数据分析的准确性。

　　图1是根据本发明实施例的方法的*敏*感*词*。

　　具体实施方法

　　本发明的目的是降低网络日志数据统计的复杂度，提高分布式网站的可扩展性。

　　为了实现本发明的上述目的，请参考图1。下面结合图1具体说明本发明实施例的实现。

　　如图1所示，本发明实施例的系统包括WEB服务器和集中处理服务器。系统满足分布式结构，即多台相同角色的服务器用于前端WEB服务。该方法包括以下步骤。

　　步骤ll，对于保存的日志数据，WEB服务器对其进行净化。

　　净化过程的目的是过滤掉对日志数据分析无用的数据，从而减少日志数据的大小。有很多过滤方法。例如，对于Linux服务器，可以直接使用SHELL命令过滤掉样式、图片等不需要的日志记录。因为用户经常请求一个收录大量脚本、样式和图片数据的页面，所以传号

　　根据净化，可以大大减少日志文件的大小，从而减少网络传输时间，有助于提高日志数据分析的效率。 '日志数据净化过程的时机可以选择在WEB服务器负载的低高峰期。服务器的低峰期可以根据统计数据分析得出，并可以根据统计数据结果随着网络应用的发展进行调整。 Step 12. 对于清洗后的日志数据，WEB服务器对其进行压缩，生成日志数据压缩文件。压缩文件的名称后附有服务器的标识，以便在集中处理服务器上区分不同WEB服务器发送的网络。日志数据压缩文件。在本实施例中，IP地址用于区分不同服务器的日志数据压缩文件。此外，还可以识别每个服务器编号或使用其他识别方法。步骤13、为防止文件网络传输过程中传输不完整或出错，需要对压缩文件进行文件校验，并生成第一校验码。本实施例中采用MD5验证方式，但本发明并不限定具体采用的验证方式。步骤14、将压缩后的日志数据文件和第一校验码发送到集中处理服务器。本实施例中，采用FTP方式传输日志数据压缩文件和第一校验码。本发明还可以采用其他传输方式，例如HTTP。步骤15、集中处理服务器检查接收到的每个服务器的日志数据文件（压缩后的）。具体包括以下步骤的识别。因此，集中处理服务器需要下载WEB服务器的IP地址配置列表，本实施例采用FTP方式传输数据，所以配置文件格式为210.121.123. 123 ftpuser ftppasswd210.121.123.124 ftpuser ftppasswd 其中ftpuser为ftp用户名，ftppasswd为ftp验证码。集中处理服务器根据配置文件列表，循环验证各Web服务器的日志数据文件是否在指定时间段内到达。如果它到达，它根据Web服务器采用的验证方法验证接收到的日志数据文件。如果日志数据文件还在

　　如果没有到达集中处理服务器，它会等待预设的时间长度才进行测试。本实施例中，集中处理服务器对接收到的日志数据压缩文件进行校验的方法具体包括：根据获取的日志数据压缩文件，按照MD5校验方法生成第二校验码，如果第二校验码为与第一个校验码相同，表示日志数据压缩文件传输正确；如果第二校验码与第一校验码不同，集中处理服务器可以执行步骤17，即主动触发WEB服务器重传日志数据压缩文件。基于上述重传机制，本发明实施例还对重传次数设置了阈值。当重传次数达到阈值，且获取的日志数据压缩文件仍无法通过MD5验证时，集中处理服务器可以停止处理WEB服务器的日志数据压缩文件并发出告警。报警形式可能包括发送邮件或短信报警，以便网站维护人员根据实际情况进行处理，保证整个网站日志的完整性。步骤16、如果集中处理服务器确定已经获取到预定WEB服务器的日志数据压缩文件，则对压缩文件进行解压；并且，由于用户访问记录可能存在于两个或多个WEB服务器上，为了保证数据的准确性，集中处理服务器必须将每个WEB服务器的日志文件合并为一个文件。从上述技术方案可以看出，本发明在各WEB服务器上的日志数据之前，先清理待上报的日志数据，从而减少了大量不必要的记录。这样，在后续的日志分析过程中，提高了日志数据的分析效率，减少了集中处理服务器的工作量。并且，由于本发明中的各个WEB服务器只需要在上报日志数据前进行净化处理，不需要在WEB服务器上配置过多的CGI环境或其他特殊环境。需求，本方案的需求，只需要利用系统本身的功能就可以实现。理论上，环境配置越多，安全性就会相应降低。因此，本发明的WEB服务器具有更高的安全性。因为分布式网站使用了很多WEB服务器端。如果采用现有技术，稍微改变一点需求，就需要调整各个WEB端的脚本和程序。这个调整过程很简单

　　发生错误。而且，每个服务器的日志也不容易监控。如果某个服务器日志出现异常，很难找出是哪个WEB服务器出了问题。与现有技术相比，本发明在现有技术中没有出现“为了实现全网数据的统计，必须统一改变所有服务器上的日志数据分析功能”，从而使得系统部署本发明简单，提高了系统的可扩展性。并且由于日志数据在集中处理服务器中处理，因此更容易识别问题并解决问题。相应地，本发明还提供了一种分布式网站系统，其特征在于包括WEB服务器和集中处理服务器。其中，WEB服务器用于对保存的日记账数据进行净化处理。处理后的日志数据上传到集中处理服务器；集中处理服务器将接收到的日志数据文件合并为一个文件。其中，净化处理包括对日志数据中的图案或/和图片数据进行过滤。在上述体系结构的基础上，进一步利用WEB服务器对清洗后的日志数据进行压缩，并标记服务器标识；集中处理服务器用于根据服务器列表中的服务器标识，判断预定进行日志数据上传的WEB服务器的日志数据是否已经到达。在上述系统结构的基础上，WEB服务器还包括为压缩后的日志数据文件生成第一校验码，并将第一校验码发送给集中处理服务器。并且，集中处理服务器还用于使用与WEB服务器相同的验证算法对获取的日志数据文件生成第二验证码，如果第一验证码与第二验证码不同，则触发WEB服务器服务器再次上传日志数据文件。以上详细描述了本发明实施例提供的分布式网站日志数据采集方法和分布式网站系统。本文通过具体实例来说明本发明的原理和实现方式。以上实施例的描述仅用于帮助理解本发明的实施方式；同时，对于本领域普通技术人员来说，根据本发明的构思，具体实现方式和适用范围可能会有变化。综上所述，本说明书的内容不应理解为对本发明的限制。

　　索赔

　　1、一种分布式网站日志数据采集方法，其特征在于对WEB服务器的日志数据进行净化，并将净化后的日志数据上传到集中处理服务器；处理服务器将接收到的日志数据文件合并为一个文件。

　　2、根据权利要求1所述的方法，其中，所述净化过程包括过滤日志数据中的图案或/和图片数据。

　　3、如权利要求1所述的方法，其特征在于，WEB服务器在上传日志数据之前，对清洗后的日志数据进行压缩，并标记服务器的身份；集中处理服务器根据服务器列表，根据服务器标识判断预定执行日志数据上传的WEB服务器的日志数据是否已经到达。

　　4、如权利要求3所述的方法，其特征在于，在Web服务器上传日志数据之前，对压缩后的日志数据文件进一步生成第一校验码，并将第一校验码发送到集中处理服务器；集中处理服务器使用与WEB服务器相同的验证算法，为获取的日志数据文件生成第二个验证文件，如果第一个验证码与第二个验证码不同，则触发WEB服务器重新上传日志数据文件。

　　5、如权利要求1所述的方法，其特征在于，在预设时间或服务器负载低于预设阈值时启动日志数据清理过程。

　　6、分布式网站系统，其特点是包括WEB服务器和集中处理服务器；其中，WEB服务器用于对保存的日志数据进行净化，并将日志数据上传到集中处理服务器；集中处理服务器将接收到的日志数据文件合并为一个文件。

　　7、如权利要求6所述的网站系统，其特征在于，所述净化过程包括过滤日志数据中的样式或/和图片数据。

　　8、如权利要求6所述的网站系统，其特征在于，所述WEB服务器还用于对清洗后的日志数据进行压缩并标记服务器的身份；集中处理服务器用于根据服务器列表根据服务器标识判断预定执行日志数据上传的WEB服务器的日志数据是否已经到达。

　　9、如权利要求6所述的网站系统，其特征在于，所述WEB服务器还包括为压缩后的日志数据文件生成第一校验码，与发送给集中处理服务器的第一校验码进行比对；集中处理服务器也使用与WEB服务器相同的验证算法，在获取的日志数据文件上生成第二验证码，如果第一验证码与第二验证码相同，则WEB服务器触发服务器重新上传日志数据文件。

　　全文摘要

　　本发明实施例提供了一种分布式网站日志数据采集方法和分布式网站系统，旨在降低网络日志数据统计的复杂度，提高分布式网站可扩展性的性能该方法包括对WEB服务器的日志数据进行净化，并将净化后的日志数据上传到集中处理服务器；集中处理服务器将接收到的日志数据文件合并为一个文件。本发明减少了集中处理服务器的工作量；使WEB服务器具有更高的安全性；本发明系统部署简单，提高了系统的可扩展性。

　　文件编号 H04L12/24GK101163046SQ2

　　出版日期 2008 年 4 月 16 日申请日期 2007 年 11 月 22 日优先权日期 2007 年 11 月 22 日

　　发明人Hui Ning, Tao Zhang 申请人：;

0

2021-09-07

网站内容采集系统

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

网站内容采集系统(分布式网站日志采集方法实施例--本发明分布式技术)

0 个评论

发起人

AI时代内容工厂

网站内容采集系统(分布式网站日志采集方法实施例--本发明分布式技术)

0 个评论

发起人

相关问题