解决方案:[发明专利]一种基于网页标签分析的数据自动采集方法在审
优采云 发布时间: 2022-11-21 11:29解决方案:[发明专利]一种基于网页标签分析的数据自动采集方法在审
技术领域
本发明涉及数据采集技术,尤其涉及一种基于网页标签分析的数据自动采集方法。
背景技术
随着互联网时代的发展,我们现在已经进入了大数据时代。互联网时代,产生的数据越来越多,各家大数据公司应用的数据也越来越多。目前的数据来源大多来自互联网,由于互联网上存在结构化、半结构化和非结构化数据,这增加了数据采集
的难度。
数据挖掘是指从存储在数据库、数据仓库或其他信息存储库中的大量数据中挖掘出有效知识的过程。数据挖掘从大量数据中提取隐含的、有价值的、易于理解的信息,指导人们的活动。数据挖掘技术主要包括关联规则、分类规则、聚类分析和序列模式等。
在通过各种数据挖掘技术挖掘互联网数据时,由于存在不同的数据结构,各个数据采集工作都迫切需要一个能够通过简单的配置采集各种数据的工具。目前的数据采集方式是分析网页后,根据网页的结构编写数据采集程序。这样的话,每次采集不同的网站,都需要重新分析网页,重写程序,大大降低了数据采集的成本。代码行的效率和重用。
发明内容
针对现有技术的不足,本发明提出了一种基于网页标签分析的数据自动采集方法。
根据本发明,一种基于网页标签分析的自动采集数据的方法,解决上述技术问题所采用的技术方案是:该自动采集数据的方法利用网页分析技术,利用程序分析源代码网页化,利用网页标签,手动配置采集位置,对互联网上的结构化、半结构化、非结构化数据进行统一采集;主要步骤包括:编写通用程序和配置采集。
" />
优选地,编写通用程序是指编写采集程序,使用统一的网页标签获取内容来采集网页内容,并留有界面用于手动配置采集内容的位置。
优选地,利用网页标签分析技术编写采集程序,利用用户通过采集程序配置的标签位置和内容采集所需的互联网网站数据。
优选地,配置采集,通过配置采集网站的类型和采集的页数,自动生成访问的URL,自动访问网页并获取网页数据,通过配置的前后端抓取互联网数据连接器。
优选地,对采集到的网站进行分析,分析是否存在分页,以及分页的参数标识;在系统上统一配置网页和分页的参数标识。
优选地,利用系统的URL采集
功能,采集
数据所在的URL,得到分页的URL。
优选地,分析采集到的数据所在的网页,找出数据所在的标签位置,并在程序中进行配置;并配置关联的数据库和表名。
优选地,通过系统的数据采集功能采集每个网页。
与现有技术相比,本发明基于网页标签分析的数据自动采集方法的有益效果在于,该数据自动采集方法利用网页分析技术,利用网页标签,手动配置采集位置,旨在互联网结构化、半结构化、非结构化数据的统一采集;解决了现有技术带来的数据采集效率低的问题,降低了数据采集的难度,提高了数据采集效率。
图纸说明
附图1是所述基于网页标签分析的自动数据采集方法的结构*敏*感*词*。
" />
详细方法
为使本发明的目的、技术方案及优点更加清楚明白,下面结合具体实施例,结合本发明的基于网页标签分析的数据自动采集方法,进一步详细说明。附图。
本发明所述的一种基于网页标签分析的数据自动采集方法,利用网页分析技术,利用程序分析网页源代码,利用网页标签,手动配置采集位置,针对结构化的和互联网上的半结构化数据。, 非结构化数据统一采集;主要步骤包括:编写通用程序和配置采集。
例子:
本实施例描述的一种基于网页标签分析的自动采集数据的方法,编写一个通用程序,编写一个采集程序,使用统一的网页标签获取内容的方法采集网页内容,并留给用户接口手动配置和采集
内容的位置。
配置采集,通过配置采集网站类型、采集页面数,自动生成访问URL,自动访问网页并获取网页数据,通过配置的前后端连接器抓取互联网数据。
本实施例描述的基于网页标签分析的数据自动采集方法的具体实现过程如图1所示:
第一步,利用网页标签分析技术编写采集程序,通过采集程序使用用户配置的标签位置和内容采集用户需要的互联网网站数据;
第二步,对采集到的网站进行分析,分析是否存在分页,分页的参数识别;并在系统上统一配置网页和分页参数识别;
第三步,利用系统的URL采集功能,先采集数据所在的URL,得到分页URL;
解决方案:IT小白也能轻松get日志服务---使用Nginx模式采集日志
Nginx日志是网站运维的重要信息。日志服务支持通过Nginx模式快速采集Nginx日志,进行多维度分析。由于Nginx强大的功能和突出的性能,越来越多的Web应用程序使用Nginx作为http和反向代理的Web服务器。Nginx的访问日志无论是用户行为分析还是安全分析,都是非常重要的数据来源之一。如何有效方便的采集
Nginx日志进行有效分析成为大家关心的问题。
如何通过日志服务控制台创建Nginx模式的Logtail配置,快速采集
Nginx日志,对于一些IT新手来说可能并不容易。下面小编将从一个新手体验者的角度来介绍一下。
背景知识
该场景主要涉及以下云产品和服务:
日志服务
日志服务SLS是一个云原生的观察分析平台,为Log、Metric、Trace等数据提供*敏*感*词*、低成本、实时的平台服务。日志服务提供数据采集、处理、查询分析、可视化、告警、消费、交付等一站式功能,全面提升您在研发、运维、运营、安全等场景的数字化能力。
云服务器 ECS
弹性计算服务(简称ECS)是阿里云提供的IaaS(Infrastructure as a Service)级别的云计算服务,具有优异的性能、稳定性、可靠性和弹性扩展能力。云服务器ECS为您省去了购买IT硬件的前期准备工作,让您像使用水、电、天然气等公共资源一样方便高效地使用服务器,实现计算的开箱即用和弹性伸缩资源。阿里云ECS不断提供创新的服务器来满足各种业务需求,助力您的业务发展。
经验简介
该场景将提供一个配置了Centos 7.7的ECS实例(云服务器)。通过本教程的操作,您可以基于现有环境快速采集Nginx日志,掌握日志服务的基本操作。
" />
先决条件步骤的简要概述
登录日志服务控制台。
安装 Nginx 运行所需的插件。
下载Nginx安装包:
解压Nginx安装包,编译安装并启动Nginx。
在访问数据区域,选择 Nginx - 文本日志。
选择目标Project和Logstore。
创建机器组。
选择目标机器组,将机器组从源机器组移动到应用机器组。
创建Logtail配置。
" />
单击“下一步”完成Logtail配置,日志服务开始采集日志。Logtail配置生效最多需要3分钟,请耐心等待。
(注:请根据具体需要选择高级配置,如无特殊要求,建议保持默认配置。)
预览数据并设置索引。
日志服务默认开启全文索引。您也可以根据采集
的日志手动或自动设置字段索引。
(注意:如果要查询分析日志,必须至少开启全文索引和字段索引属性之一,同时开启时,以字段索引为准。)
在浏览器中打开新标签页,访问;ECS公网地址>,多次刷新页面。
打开日志服务页签,点击查询/分析,可以看到采集到的access.log日志。
至此,Nginx方式的日志采集就完成了。
相信通过对日志服务真实运行环境的亲身体验,您会对如何快速采集Nginx日志有更进一步的认识和收获,也会更容易上手和进行实际操作。
实验场景体验链接如下,快来试试吧: