资讯内容采集系统( :网络资讯的采集和分析方法及系统的背景技术)
优采云 发布时间: 2022-02-18 02:08资讯内容采集系统(
:网络资讯的采集和分析方法及系统的背景技术)
一种采集及网络信息分析方法及系统
技术领域
[0001] 本发明涉及互联网数据爬虫技术领域,具体涉及一种基于互联网的网络信息分析分析方法及系统。
背景技术
[0002] *敏*感*词*融信息的方式已经从报纸、广播、电视等逐渐转变为以互联网为主流的方式。网络信息通过互联网传播,通过不同的来源,使其具有持续的影响力和传播力。
[0003] 目前,网络信息处理大多采用人工方式进行维护和管理,通过人工维护和管理,在网络信息的及时性和网络信息的利用方面存在很多不足。因此,采用人工方式采集和整理财务信息,耗费大量的时间和经验,效果达不到理想的效果。
[0004] 在新的互联网形势下,面对这些问题,需要利用互联网的技术手段和方法,快速开展对网络信息传播时间和广度的检测,提高情报引导和传播能力。互联网信息内容挖掘能力。
发明内容
[0005] 本发明要解决的问题是提供一种网络信息分析方法和系统,能够为网络信息的深度挖掘应用提供数据逻辑支持。
为了解决上述技术问题,本发明提供以下技术方案:
一种采集及网络信息分析方法,包括以下步骤:
S1:为预设抓取节点分配抓取任务,抓取任务至少对应于目标网络的网络地址;
S2:接收抓取节点发送的抓取数据信息,根据数据信息提取目标数据并将目标数据存储在目标数据库中,目标数据包括:关于的标题、来源、发布时间和文本内容数据信息;
S3:判断当前所述目标数据与所述目标数据库中其他目标数据的重复性。
[0011] 优选地,所述步骤S1还用于根据各个抓取节点中分布的网络爬虫的状态,分配抓取任务。
作为优选,所述步骤S1还包括:
S10:确定每个描述的抓取节点对应的目标网站的*敏*感*词*数量;
S11:确定所述抓取节点的网络爬虫完成的*敏*感*词*数量和未完成抓取的*敏*感*词*数量;
S12:将所述抓取节点的网络爬虫完成的*敏*感*词*数从高到低排序;
[0016] S13:将未完成的抓取任务的*敏*感*词*按照S12中的顺序分配给每个描述的抓取节点。
作为优选,步骤S3还包括:
S30:对目标数据进行索引,并将索引存储在索引数据库中;
S31:比较索引库中各个索引对应的目标数据,判断每个描述的目标数据的重复度,写入重复度对应的目标库。
[0020] 优选地,根据目标数据的重复程度,建立目标数据与每个现有重复数据的时间的对应关系。
[0021] 优选地,索引包括目标数据中的关键字和关键词。
[0022] 优选地,目标数据库与索引数据库中的索引信息相关联。
[0023] 优选地,目标网络是金融信息的相关网络。
本发明还提供一种采集及网络信息分析系统,其应用上述网络信息采集及分析方法,所述系统包括:
任务分配模块,为预置抓取节点分配抓取任务,所述抓取任务至少对应一个目标网络的网络地址;
抓取模块,接收并执行所述抓取任务;
提取模块,其接收所述抓取模块中各个抓取节点抓取的数据信息,并根据所述数据信息提取目标数据,所述目标数据存储在目标数据库中,目标数据包括:标题、来源、发布时间数据信息的文本内容;
[0028] 分析模块,根据提取模块提取的数据信息,判断当前目标数据与目标数据库中其他目标数据的重复程度。
作为优选,所述分析模块,进一步包括:
索引建立单元,对所述目标数据建立索引,所述索引存储在索引数据库中;
[0031] 重复度判断单元根据建立的索引对应的目标数据,判断每个目标数据的重复度,并将重复度对应写入目标数据库。
本发明的有益效果是:本发明采用智能技术手段采集信息,大大突破了人工信息采集处理的瓶颈,程序自动建立信息关键信息索引,构建了一个坚实的基础。信息大数据应用基础。
图纸说明
图1为本发明实施例采集及网络信息分析方法的流程图;
[0034] 图。图2为本发明实施例的网络信息分析分析系统的示意框图。
标号说明
1-任务分配模块 2-抓取模块
3-提取模块 4-分析模块
详细说明
[0038] 下面结合附图对本发明实施例作进一步的详细描述,但并不作为对本发明的限制。
本发明提供一种网络信息与分析方法及系统,本发明的方法可以实现对网络中爬行节点抓取到的数据的自动分析,并建立相关索引,并可以分析它们之间的关系索引对应的数据的重复次数和时间,为数据挖掘提供了强大的后台支持。
如图1所示,为本发明实施例中的一种网络信息及分析方法的流程图,包括以下步骤:
S1:通过工具设置平台,为预设抓取节点分发抓取任务,所述抓取任务至少对应一个目标网络的网络地址;这个网络地址可以是关于财务信息的网站地址。
S2:接收各个抓取节点发送的抓取数据信息,根据数据信息提取目标数据,并将目标数据存储在目标数据库中,目标数据包括:关于数据的标题、来源、发布时间、以及信息的正文内容;同时,数据信息中还可能包括网站的捕获*敏*感*词*和网站尚未完成捕获任务的*敏*感*词*。
S3:判断所述目标数据库中当前目标数据与其他目标数据的重复程度。重复度可以包括标题的重复、网站内容的重复或来源的重复,重复度可以通过将上述多种情况下的重复组合得到上述所有重复来计算。可重复性。
[0044] 通过上述配置,本发明实施例可以通过统计每个相关性中发布的信息的相关性来分析内容的热点或流行度,并且可以总结出重复的内容。
[0045] 此外,步骤S1还可以进一步用于根据网络爬虫分布在各个抓取节点的状态,分配抓取任务。也就是说,可以根据每个网络节点的网络爬虫的任务完成状态或空闲状态来分配爬取任务,以平衡每个网络节点的工作状态。具体地,本发明实施例中的步骤S1还可以包括:
S10:确定每个抓取节点对应的目标网站的*敏*感*词*数量,即确定每个抓取节点的网络爬虫的总任务量;
S11:确定抓取节点的网络爬虫完成的*敏*感*词*数量和未被抓取的*敏*感*词*数量;
S12:将抓取节点的网络爬虫完成的*敏*感*词*数从高到低排序;
[0049] S13:将未完成的抓取任务的*敏*感*词*按照S12中的顺序分配给各个抓取节点。
通过上述配置,可以自动计算网络节点中每个网络爬虫的抓取任务完成量,并按照完成量的顺序重新分配任务,可以提高任务抓取的效率,也可以提高每个网络爬虫的抓取任务完成量。网络节点相互配合,高效、快速地完成抓取任务。
此外,本实施例中的步骤S3还可以进一步包括:
S30:对目标数据建立索引,并将索引存储在索引数据库中;
S31:比较索引库中各个索引对应的目标数据,判断每个描述的目标数据的重复度,写入重复度对应的目标库。
[0054] 也就是说,通过建立索引,可以更有效、更快速地找到重复内容或关键内容的重复,也可以方便数据信息的检索和读取。
[0055] 其中,在本实施例中,根据目标数据的重复程度,建立目标数据与每个已存在的重复数据的时间的对应关系。即可以建立每条数据信息或具有重复信息的目标数据及其各自的发布时间的时间轴关系,并将该关系存储在目标数据库中。本实施例的索引可以包括目标数据中的关键字和关键词,关联的目标数据库包括索引数据库中的索引信息。通过目标数据库和索引数据库的关联,可以快速对应找到相关数据信息,从而快速实现信息的读取、查找和比对。
[0056] 本发明还提供了一种采集及网络信息分析系统,该系统应用如上述实施例所述的采集及网络信息分析方法,如图2所示如图所示,实施本发明的采集及网络信息分析系统可以包括:任务分配模块1、抓取模块2、提取模块3和分析模块4、其中任务分配模块1可以为预设抓取节点分配抓取任务,抓取任务至少对应于目标网络的网络地址;抓取模块2可以接收并执行抓取任务,抓取模块2包括设置在各个网络节点的网络爬虫。提取模块3可以接收抓取模块2中的各个抓取节点抓取的数据信息,根据数据信息提取目标数据,并将目标数据存储在目标数据库中,目标数据包括:标题、来源,数据信息的发布时间和文本内容。此外,分析模块4可以根据提取模块3提取的数据信息判断当前目标数据与目标数据库中其他目标数据的重复程度。数据信息的发布时间和文本内容。此外,分析模块4可以根据提取模块3提取的数据信息判断当前目标数据与目标数据库中其他目标数据的重复程度。数据信息的发布时间和文本内容。此外,分析模块4可以根据提取模块3提取的数据信息判断当前目标数据与目标数据库中其他目标数据的重复程度。
[0057] 基于上述配置,本实施例的系统可以通过统计每个相关性中发布的信息的相关性来分析内容的热点或流行度,并且可以总结重复的内容。
另外,本实施例中还可以包括计算模块和排序模块,该计算模块用于计算每个抓取节点网站对应的目标的*敏*感*词*数量,即确定每个抓取节点的网络任务总数爬虫数量;排序模块用于确定节点的爬虫已爬取的*敏*感*词*数和未爬取的*敏*感*词*数,任务分配模块将未完成爬取任务的*敏*感*词*分别排序。模块的排列顺序被分配给每个抓取节点。
通过上述配置,可以自动计算每个网络爬虫的爬取任务在网络节点的完成量,并按照完成量的顺序重新分配任务,可以提高任务抓取的效率,也可以提升每个网络节点节点相互配合,高效、快速地完成抓取任务。
另外,本实施例中的分析模块4还可以进一步包括:索引建立单元41和重复度判断单元42,该索引建立单元41可以为目标数据建立索引,该索引存储在索引数据库中。
[0061] 重复度判断单元42可以根据建立的索引对应的目标数据,确定每个目标数据的重复度,并将重复度对应写入目标数据库。也就是说,通过建立索引,可以更有效、更快速地找到重复内容或关键内容的重复,也可以方便数据信息的检索和读取。
[0062] 以上实施例仅为本发明的较佳实施例而已,并不用于限制本发明,本发明的保护范围以权利要求书为准。本领域技术人员可以在本发明的精神和保护范围内对本发明进行各种修改或等同替换,这些修改或等同替换也应视为落入本发明的保护范围之内。