资讯内容采集系统( 本发明网络资讯的采集方法及系统,所述方法包括哪些?)

优采云 发布时间: 2021-11-07 09:05

  资讯内容采集系统(

本发明网络资讯的采集方法及系统,所述方法包括哪些?)

  网络信息采集及分析方法和系统制造方法

  [专利摘要] 本发明提供了一种采集网络信息的方法和系统。该方法包括以下步骤: S1:将抓取任务分配给预设的抓取节点,抓取任务至少对应目标网络的网络地址。S2:接收捕获节点发送的捕获数据信息,根据数据信息提取目标数据,并将目标数据存储到目标数据库中,目标数据包括:标题、来源、发布时间、文本内容数据信息;S3:判断当前目标数据与目标数据库中其他目标数据的重复程度。本发明采用智能技术方法采集信息,大大突破人工信息采集的瓶颈

  【专利说明】

  采集以及网络信息的分析方法和系统

  技术领域

  [0001] 本发明涉及互联网数据爬虫技术领域,尤其涉及一种基于互联网的采集网络信息分析方法及系统。

  【背景技术】

  [0002] *敏*感*词*融信息的方式已经从报纸、广播、电视等逐渐转变为以互联网为主流的方式。网络信息通过互联网的传播,使其具有不同来源的持续影响力和传播力。

  [0003] 目前,大部分网络信息处理都是人工维护和管理,人工维护和管理在网络信息的及时性和网络信息的利用方面存在诸多不足。因此,采用人工方式采集整理财务信息,耗费大量时间和经验,效果达不到预期的理想。

  [0004] 在新的互联网形势下,应对这些问题,需要利用互联网的技术手段和方法,快速进行网络信息传输时间和广度的检测,提高信息引导能力。和互联网上的内容挖掘。

  [发明概要]

  [0005] 本发明要解决的问题是提供一种网络信息采集及分析方法和系统,能够为网络信息深度挖掘应用提供数据逻辑支持。

  [0006] 为解决上述技术问题,本发明提供以下技术方案:

  [0007] 一种采集及网络信息分析方法,包括以下步骤:

  [0008] S1:为预设的抓取节点分配抓取任务,抓取任务对应目标网络的至少一个网络地址;

  [0009] S2:接收捕获节点发送的捕获数据信息,根据数据信息提取目标数据,并将目标数据存储在目标数据库中,目标数据包括:标题、来源、发布时间和文本内容数据信息;

  [0010] S3:确定当前目标数据与目标数据库中其他目标数据的重复程度。

  [0011] 优选地,步骤S1还用于根据分布在各个抓取节点中的网络爬虫的状态分配抓取任务。

  [0012] 优选地,步骤S1还包括:

  [0013] S10:确定每个抓取节点对应的目标网站的*敏*感*词*数;

  [0014] S11:确定捕获节点的网络爬虫已经捕获到的*敏*感*词*数和未捕获到的*敏*感*词*数;

  [0015] S12:将爬行节点的网络爬虫完成的*敏*感*词*数从高到低排序;

  [0016] S13:将未完成的抓取任务的*敏*感*词*按照S12中的顺序分配给各个抓取节点。

  [0017] 优选地,步骤S3还包括:

  [0018] S30:对目标数据建立索引,并将索引存储在索引数据库中;

  [0019] S31:比较索引库中各索引对应的目标数据,确定各目标数据的重复程度,将对应的重复程度写入目标数据库。

  [0020] 优选地,根据目标数据的重复程度,建立每个目标数据重复数据与时间的对应关系。

  [0021] 优选地,索引包括目标数据中的关键字和关键词

  [0022] 优选地,目标数据库与索引数据库中的索引信息相关联。

  [0023] 优选地,目标网络是与金融信息相关的网络。

  [0024] 本发明还提供了一种采集及网络信息分析系统,应用上述采集及网络信息分析方法,该系统包括:

  [0025] 任务分配模块,将抓取任务分配给预设的抓取节点,抓取任务对应目标网络的至少一个网络地址;

  [0026] 抓取模块,接收抓取任务并执行;

  [0027] 提取模块,接收捕获模块中各个捕获节点捕获的数据信息,根据数据信息提取目标数据,并将目标数据存储在目标数据库中,目标数据包括:标题、来源、发布数据信息的时间和正文内容;

  [0028] 分析模块,根据提取模块提取的数据信息,确定当前目标数据与目标数据库中其他目标数据的重复程度。

  [0029] 优选地,所述分析模块还包括:

  [0030] 索引建立单元,对目标数据进行索引,并将索引存储在索引数据库中;

  [0031] 重复度判断单元,根据建立的索引对应的目标数据,判断每个目标数据的重复度,并写入目标数据库对应的重复度。

  [0032] 本发明的有益效果是:本发明采用智能技术方法对采集信息进行处理,极大地突破了人工信息采集处理的瓶颈,程序自动创建信息的关键信息索引。夯实信息大数据应用基础。

  【图纸说明】

  [0033] 图。附图说明图1为本发明实施例中采集及网络信息分析方法的流程图;

  [0034] 图 图2为本发明实施例中采集及网络信息分析系统的功能框图。

  [0035] 附图标记说明

  [0036] 1-任务分配模块2-抓取模块

  [0037] 3-提取模块4-分析模块

  【详细方式】

  [0038] 下面将结合附图对本发明的实施例进行更详细的描述,但这并不构成对本发明的限制。

  [0039] 本发明提供了一种采集以及网络信息的分析方法和系统。本发明的方法能够自动分析网络中捕获节点捕获的数据并建立相关的Index,并且能够分析该索引对应的数据的重复性和时间的关系,为数据提供了强大的后台支持矿业。

  [0040] 如图所示。参见图1,为本发明实施例中采集和网络信息分析的方法流程图,包括以下步骤:

  [0041] S1:使用工具设置平台为预设的爬取节点分配爬取任务。爬取任务至少对应一个目标网络的网络地址;网络地址可以是网站@关于财经信息>地址。

  [0042] S2:接收各个捕获节点发送的捕获数据信息,根据数据信息提取目标数据,并将目标数据存储在目标数据库中,目标数据包括:关于数据的标题、来源、发布时间和信息的正文内容;同时,数据信息还可以包括爬取到的网站的*敏*感*词*和未完成爬取任务的网站的*敏*感*词*。

  [0043] S3:确定当前目标数据与目标数据库中其他目标数据的重复程度。重复程度可以包括标题的重复、网站内容的重复、或出处的重复,重复程度可以综合上述多种情况下的重复,得到所有的上面提到的重复内容。重复性。

  [0044] 通过上述配置,本发明实施例可以通过统计每个相关网站中发布的信息的相关性来分析内容的热点或流行度,并且可以对重复的内容进行汇总。

  [0045] 此外,步骤S1还可以用于根据分布在各个抓取节点中的网络爬虫的状态分配抓取任务。也就是说,可以根据各个网络节点的网络爬虫的任务完成状态或空闲状态来分配爬虫任务,以平衡各个网络节点的工作状态。具体地,本发明实施例中的步骤S1还可以包括:

  [0046] S10:确定每个抓取节点对应的目标网站的*敏*感*词*数,即确定每个抓取节点的网络爬虫的总任务量;

  [0047] S11:确定爬虫节点的网络爬虫抓取到的*敏*感*词*数和未抓取到的*敏*感*词*数;

  [0048] S12:将抓取节点的网络爬虫完成的*敏*感*词*数从高到低排序;

  [0049] S13:将未完成的抓取任务的*敏*感*词*按照S12中的顺序分配给各个抓取节点。

  [0050] 通过上述配置,可以自动计算网络节点中各个网络爬虫的爬取任务的完成量,并按照完成量的先后顺序重新分配任务,可以提高效率任务抓取,还可以提高各个网络节点的交互,有效快速地完成抓取任务。

  [0051] 此外,本实施例中的步骤S3还可以包括:

  [0052] S30:对目标数据建立索引,并将索引存储在索引数据库中;

  [0053] S31:比较索引库中各索引对应的目标数据,确定各目标数据的重复程度,将对应的重复程度写入目标数据库。

  [0054] 也就是说,通过建立索引,可以更有效、更快速地找到重复内容或关键内容,也可以方便数据信息的检索和阅读。

  [0055] 其中,在本实施例中,每个目标数据的重复数据与时间的对应关系是根据目标数据的重复程度建立的。即可以建立每个数据信息或具有重复信息的目标数据与各自的发布时间之间的时间轴关系,并将该关系存储在目标数据库中。本实施例中的索引可以包括目标数据中的关键字和关键词,目标数据库中的关联信息包括索引数据库中的索引信息。通过目标库和索引库的关联,可以快速找到对应的相关数据信息,从而快速实现信息的阅读、查找和对比。

  [0056] 本发明还提供了一种网络信息采集及分析系统,应用上述实施例所述的网络信息采集及分析方法,如图2所示。本发明实施中的网络信息@采集和分析系统可以包括:任务分配模块1、捕获模块2、提取模块3和分析模块4,其中任务分配模块1可以为预设的抓取节点分配抓取任务,抓取任务对应目标网络的至少一个网络地址;抓取模块2可以接收并执行抓取任务,抓取模块2包括安装在各个网络节点的网络爬虫。提取模块3可以接收捕获模块2中各个捕获节点捕获的数据信息,根据数据信息提取目标数据,并将目标数据存储在目标数据库中,目标数据包括:关于标题、来源、数据信息的发布时间和文本内容。另外,分析模块4可以根据提取模块3提取的数据信息,判断当前目标数据与目标数据库中其他目标数据的重复程度。

  [0057] 基于上述配置,本实施例的系统可以通过统计每个相关网站中发布的信息的相关性来分析该内容的热点或流行度,并且可以对重复的内容进行汇总。

  [0058] 此外,本实施例还可以包括计算模块和排序模块,计算模块用于计算每个抓取节点对应的目标网站的*敏*感*词*数,即确定每个抓取节点的网络爬虫的总任务量;排序模块用于确定爬取节点的爬虫已经完成爬取的*敏*感*词*数和未完成的*敏*感*词*数。同时,任务分配模块将未完成的抓取任务的*敏*感*词*按照模块排列的顺序分配给每个抓取节点。

  [0059] 通过上述配置,可以自动计算网络节点中各个网络爬虫的爬取任务的完成量,并按照完成量的先后顺序重新分配任务,可以提高效率任务抓取,还可以提高各个网络节点的交互,有效快速地完成抓取任务。

  [0060] 此外,本实施例的分析模块4还可以包括:索引建立单元41和重复度判断单元42,索引建立单元41可以为目标数据建立索引,并将该索引存储在索引数据库;

  [0061] 重复度判断单元42可以根据建立的索引对应的目标数据,确定每个目标数据的重复度,并将对应的重复度写入目标数据库。也就是说,通过建立索引,可以更有效、快速地发现重复内容或关键内容的重复,也可以方便数据信息的检索和阅读。

  [0062] 以上实施例仅为本发明的示例性实施例而已,并不用于限制本发明,本发明的保护范围以权利要求书为准。本领域技术人员可以在本发明的实质和保护范围内对本发明进行各种修改或等同替换,这些修改或等同替换也应视为落入本发明的保护范围之内。

  【主权项】

  1. 一种采集及网络信息分析方法,其特征在于包括以下步骤: S1:将抓取任务分配给预设的抓取节点,抓取任务对应至少一个网络目标网络地址;S2:接收捕获节点发送的捕获数据信息,根据数据信息提取目标数据并存储到目标数据库中,目标数据包括:标题、来源、发布时间和正文内容数据信息;S3:判断当前目标数据与目标数据库中其他目标数据的重复程度。2. 根据权利要求1所述的方法,其中,步骤SI还用于根据每个爬虫节点中分布的网络爬虫的状态分配爬虫任务。3.根据权利要求2所述的方法,其特征在于,所述步骤SI还包括: S10:确定每个抓取节点对应的目标网站的*敏*感*词*数;Sll:确定爬虫节点的网络爬虫抓取到的*敏*感*词*数和未抓取到的*敏*感*词*数;S12:将爬取节点的网络爬虫完成的*敏*感*词*数从高到低排序;S13:未完成的抓取任务的*敏*感*词*按照S12中的顺序分配给各个抓取节点。4.根据权利要求1所述的方法,其中步骤S3还包括: S30:对目标数据进行索引,并将索引存储在索引数据库中;S31:比较索引 对于数据库中各索引对应的目标数据,判断各目标数据的重复程度,并将重复程度对应写入目标数据库。

  5.如权利要求4所述的方法,其特征在于,根据所述目标数据的重复程度,建立每个重复数据的目标数据与时间的对应关系。6.如权利要求4所述的方法,其特征在于,所述索引包括目标数据中的关键字和关键词。7.如权利要求4所述的方法,其特征在于,所述目标数据库中的关联信息包括索引数据库中的索引信息。8.如权利要求1所述的方法,其特征在于,所述目标网络为金融信息相关网络。9.一种网络信息采集及分析系统,应用权利要求1-8任一项所述的网络信息采集及分析方法,该系统包括: 任务分配模块, 为预设的抓取节点分配抓取任务,抓取任务对应目标网络的至少一个网络地址;抓取模块,接收并执行抓取任务;提取模块,它接收捕获模块中各个捕获节点捕获的数据信息,根据数据信息提取目标数据,并将目标数据存储在目标数据库中,目标数据包括:关于标题、来源、发布数据信息的时间、文本内容;分析模块,根据提取模块提取的数据信息,判断当前目标数据与目标数据库中其他目标数据的重复程度。10.如权利要求9所述的系统,其特征在于,所述分析模块还包括:索引建立单元,为目标数据建立索引,并将索引存储在索引A数据库中;重复性判断单元,根据建立的索引对应的目标数据,判断各目标数据的重复性,写入目标数据库对应的重复性。

  【文件编号】G06F17/30GK105956069SQ2

  【出版日】2016年9月21日

  【申请日期】2016年4月28日

  【发明人】吴斌、谢晓勇、黄军、胡春华、陈志雄、胡浩

  【申请人】

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线