解决方案:网页信息自动采集方法及系统与流程
优采云 发布时间: 2022-11-06 15:44解决方案:网页信息自动采集方法及系统与流程
1、本发明属于互联网数据处理技术领域,具体涉及一种采集网页信息自动处理方法及系统。
背景技术:
2、随着互联网的飞速发展和网络信息的迅速膨胀,在为人们提供丰富信息的同时,也使人们在有效利用方面面临着巨大的挑战。因此,基于网络的信息采集、发布及相关信息处理越来越成为人们关注的焦点。
3、传统网页信息采集的目标是采集尽可能多的信息页面,甚至是整个网站的资源,在这个过程中需要有一定技术背景的工程师,分析目标网站并配置爬取规则,可能涉及分页规则、内容页规则等很多页面的DOM结构,目标网站的模板可能会频繁升级修改,这需要工程师重新分析他的DOM结构并配置规则。这种方法费时费力,时效性差。采集收到的信息不完整,采集的进程不稳定。
技术实施要素:
4、为此,本发明提供了一种网页信息自动采集方法及系统,通过设置不同行业的网站模板库,根据目标URL和DOM结构配置抓取规则,进而实现根据抓取规则自动抓取目标信息的全自动信息采集。
5、根据本发明提供的设计方案,提供了一种自动采集网页信息的方法,包括以下内容:
6、采集不同行业的网页信息,构建网站模板库,用于设置爬取规则。爬取规则根据网页信息设置要匹配的内容。网页信息至少包括页面层级、网页源代码、DOM结构和分页规则;
7、根据网页采集的请求分析目标网站,提取目标网站采集请求的数据对象;
8、将提取的数据对象与网站模板库中对应的网站模板的爬取规则进行匹配,根据匹配结果采集目标网页数据。
9、作为本发明的网页信息自动采集的方法,进一步地,根据网页url链接中的字符规则或网页源代码的内容,将要匹配的内容在抓取规则中的网页由分隔符或定位器设置。
10、作为本发明的网页信息自动采集的方法,进一步地,对于爬取规则中要匹配的内容,通过设置唯一标识来进行内容定位和规则配置。
11、作为本发明的网页信息自动采集方法,进一步的,所述规则配置包括:设置逻辑表达式、正则匹配或css选择器。
12、作为本发明的网页信息的自动采集方法,进一步的,所述爬取规则还包括:针对目标网页数据为零的情况的修正内容,其中修正内容是通过重新分析得到的。目标。网站页面信息循环调整爬取规则中设置的待匹配内容,直到爬取到网页数据。
13、作为本发明的网页信息自动采集方法,进一步地,根据网页采集请求,通过target网站url链接获取target网站信息提取目标网站 信息。网站采集请求的数据对象。
14、作为本发明的网页信息自动采集方法,进一步地,在通过目标网站url链接获取目标网站信息的同时,设置对应网页的抓取采集 请求时间和/或抓取频率。
15.进一步地,本发明还提供一种网页信息自动采集系统,包括:构建模板模块、目标分析模块和数据采集模块,其中,
16、构建模板模块,采集不同行业的网页信息,构建网站模板库,用于设置爬取规则,爬取规则根据网页信息设置要匹配的内容,网页信息收录至少页面层次结构、网页源代码、dom结构和分页规则;
17、目标分析模块,用于根据网页采集的请求对目标网站进行分析,提取目标网站采集请求的数据对象;
18、数据抓取模块用于将提取的数据对象与网站模板库中对应网站模板的抓取规则进行匹配,根据采集目标网页数据匹配结果。
19、本发明的有益效果:
20、本发明根据目标URL和DOM结构配置抓取规则。用户使用时,可以根据需要输入请求信息,例如输入目标URL、抓取时间、频率等,自动匹配模板库对应的抓取规则。等数据,自动抓取目标网页的数据内容,实现目标网页信息的全自动信息采集,解放人力资源,提高网页的工作效率采集,并保证抓取结果的完整性、抓取过程的稳定性和抓取内容的及时性,具有良好的应用前景。
图纸说明:
21.图1为本实施例中网页信息自动采集流程*敏*感*词*;
22. 图。图2为本实施例的网页源代码内容*敏*感*词*。
详细方法:
23、为使本发明的目的、技术方案和优点更加清楚明白,下面结合附图和技术方案对本发明作进一步的详细说明。
24.对于第三方网页采集,特别是一些待采集的网页布局复杂,内容加载动态,分页列表地址规则不明显,爬取页面内容,没有通用的具有独特功能的解决方案。,本发明的一个实施例,如图1所示。1、提供网页信息自动采集方法,包括:
25.s101。采集不同行业的网页信息,构建网站模板库,用于设置爬取规则。爬取规则根据网页信息设置要匹配的内容,网页信息至少包括页面层级和网页来源。代码、DOM结构和分页规则;
26.s102. 根据网页采集的请求分析目标网站,提取目标网站采集请求的数据对象;
27.s103. 将提取的数据对象与网站模板库中网站模板对应的爬取规则进行匹配,根据匹配结果采集定位网页数据。
28、本案实施例可以针对不同行业建立大量模板库,可以存储目标网站的页面层次、网页源码、DOM结构、分页规则等通过模板库。而用户在使用时只需输入目标URL、爬取时间、频率等请求内容,通过自动匹配找到模板库对应的爬取规则等数据,实现自动爬取目标网页数据对象,效率高,灵活性好。
29、进一步地,本案实施例中,所述爬取规则中网页上要匹配的内容是由分隔符或定位符根据网页url链接中的字符规则或网页源代码的内容来设置的。进一步地,对于爬取规则中要匹配的内容,通过设置唯一标识来进行内容定位和规则配置。
30. 例如:列表页链接为:
31., /2, 3
...
shtml,可以发现正则链接的最后一个数字是一个一个递增的,可以在起始url的文本框中输入${1:+}.shtml。如果链接中的数字在递减,例如 ${9:-}。
32. 另一个例子:详情页的链接是:
33.
34.
35.
36、通过以上三个详情页的连接,可以发现正则链接从倒数第二个字符串变化,然后在url的匹配文本框中输入${c}/${b}.shtml,其中${a} 充当分隔符以忽略网页的无用部分;${c}或${b}作为定位函数,爬取的程序代码可以准确识别跳转到详情页url,从而解析到网页不同层次需要的内容。
37.另外,如图2网页源文件截图所示,可以配置为:
38. ${标题:#标题}
39. ${a}
40. ${内容:#artibody}
41. ${a}
42. ${发布日期:.wzinfo}
43、通过以上配置,可以抓取想要的标题、正文、发布时间。
44、进一步,在本案实施例中,规则配置包括:设置逻辑表达式、正则匹配或css选择器。
45、定位到需要爬取的网页的分页地址url,找到分页地址url与当前页码的关系。打开待爬取页面的详情页,在文本内容所在网页的源代码中找到新闻标题、发布时间、作者、来源、唯一标识。使用支持逻辑表达式、正则或 CSS 选择器(如“#”、“.”等)的规则配置,准确定位要抓取的内容。配置要爬取的目标页面的分页数,是否通过ajax等前端技术加载异步数据,是否同时下载图片、附件等,是否过滤网页其他无效链接等。此外,通过配置定时可以实现系统的自动抓取。通过以上步骤的内容,可以适配目标网页的各种复杂情况。
46、在本案实施例中,进一步的,爬取规则还包括:针对采集目标网页数据为零的情况的修正内容,其中修正内容是通过重新分析目标得到的网站 页面信息。对爬取规则中设置的待匹配内容进行循环调整,直到爬取到网页数据为止。爬取规则无效时的目标数据获取情况可以通过设置修正内容进行调整。这个过程也可以人工干预,实现目标网页数据对象采集的自动纠错调整。进一步地,根据网页采集请求,通过目标网站url链接获取目标网站信息,从而提取目标请求的数据对象< 网站采集。可以设置对应网页采集请求的爬取时间和/或爬取频率,以满足面对不同爬取对象或时效性要求的请求。
47、进一步地,基于上述方法,本发明实施例还提供了一种网页信息自动采集系统,包括:构建模板模块、目标分析模块和数据采集模块,其中,
48、构建采集不同行业网页信息的模板模块,构建网站模板库,用于设置爬取规则,爬取规则根据网页信息设置要匹配的内容,网页信息收录至少页面层次结构、网页源代码、dom结构和分页规则;
49、目标分析模块,用于根据网页采集的请求对目标网站进行分析,提取目标网站采集请求的数据对象;
50、数据抓取模块用于将提取的数据对象与网站模板库中对应网站模板的抓取规则进行匹配,根据采集目标网页数据匹配结果。
51、通过分析网站使用的前端技术、页面层次、网页中有效数据的标记等,建立目标网站模板库;从目标网页的源代码中过滤出无效的网站标签和内容,自动分析标签层次和标签属性。
52、根据标签等级和标签属性,系统自动生成匹配表达式,例如:
53.//*[@id="thread_list"]/li/div/div[2]/div[1]/div[1]/a,其中表达式中的“*”代表任意字符,“@id = “thread_list””表示标签的id属性值为thread_list,“/”表示下一级标签,“div[2]”表示下一级的第二个div标签,“a”表示标签的最终值。
[0054]
当原有规则无法抓取数据时,还可以设置自动纠错程序,启动自动纠错程序,分析页面结构,直到可以抓取数据。在这个过程中,也可以进行人工干预。为了满足应用中实际网页信息采集。
[0055]
除非另有特别说明,否则这些实施例中阐述的组件和步骤的相对步骤、数值表达和数值不限制本发明的范围。
[0056]
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于本实施例公开的系统,由于与本实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法说明即可。
[0057]
结合本文所公开的实施例描述的各个实施例的单元和方法步骤可以通过电子硬件、计算机软件或者两者的结合来实现。为了清楚地说明硬件和软件的互换性,在上面的描述中,已经对每个示例的组件和步骤进行了大致的功能描述。这些功能是在硬件还是软件中执行,取决于技术方案的具体应用和设计约束。本领域的普通技术人员可以为每个特定应用使用不同的方法来实现所描述的功能,但是这样的实现不被认为超出本发明的范围。
[0058]
本领域技术人员可以理解,上述方法中的全部或部分步骤可以通过程序指令相关硬件来完成,该程序可以存储在计算机可读存储介质中,例如只读存储器。 、磁盘或光盘。可选地,上述实施例中的全部或部分步骤也可以采用一个或多个集成电路来实现。相应地,上述实施例中的各个模块/单元可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。形式实现。本发明不限于任何特定形式的硬件和软件组合。
[0059]
最后需要说明的是,上述实施例仅为本发明的具体实施方式,用以说明本发明的技术方案,并不用于限制本发明。本发明的保护范围不限于此,尽管参照前述实施例对本发明进行了详细描述,本领域普通技术人员应当理解:任何熟悉本技术的本领域技术人员在本发明所公开的技术范围内的领域,仍然可以对上述实施例中描述的技术方案进行修改。或者可以很容易地想到改变,或者等价地替换一些技术特征;而这些修改,所作的改动或替换,不使相应技术方案的实质脱离本发明实施例的技术方案的精神和范围,应当涵盖在本发明的范围内。保护
范围内。因此,本发明的保护范围应以权利要求的保护范围为准。
免费的:飞跃客户信息采集软件(客户资料查找工具) v3.21 免费版
做销售的朋友,这款飞跃软件简直就是你的客户信息搜索工具。飞跃客户信息采集软件可以帮助您快速识别目标客户,进行充分的市场调研,为您的销售管理和营销管理做好充分的准备。同时提取最新数据,24小时自动采集,非常实用。
飞跃客户资料采集软件介绍:
1、主要目的:提取最新数据,帮助您快速识别目标客户,进行充分的市场调研,为您的销售管理和营销管理做好充分准备。为您提供直接与目标客户互动的机会
2、软件价格:软件24小时自动采集,每天都能获取当天最新的*敏*感*词*。充值后可无限获取采集。价格可根据个人需求(一个月、三个月、一年)灵活购买。
3、软件优势:搜索到的数据都是真实的*敏*感*词*,数据准确率高达95%!可免费测试,采集数据每日更新。
4、数据来源:收录主要汽车行业及分类信息等网站如汽车之家、易车网、58同城、人民网等,屏蔽中介商户,不重复,并且可以分为采集、采集无限制的区域。
飞跃客户信息采集软件特色:
1.在线采集最新*敏*感*词*;
2.与网络24小时同步更新;
3、支持指定区域批量采集;
4、数据过滤:过滤重复数据,使*敏*感*词*管理更加精准;
5、采集接收到的数据可以导入个人电脑,支持EXCEL、TXT文本等格式。