智能采集系统( 本发明深度神经网络通过获取多组内容混排特征数据采集方法(图))
优采云 发布时间: 2022-01-16 17:03智能采集系统(
本发明深度神经网络通过获取多组内容混排特征数据采集方法(图))
本发明涉及网络信息采集技术领域,具体涉及一种通过网页采集模型实现互联网信息采集的方法及系统。
背景技术:
随着互联网的飞速发展和大数据平台的出现,海量的网络信息难以形容,从网络数据中搜索查询想要的数据就更加麻烦了。但是,由于数据更新速度快,每次都需要检索和重新检查,不仅耗时而且效率低下。
另外,对于一些数据采集系统,可以通过不断的数据分析得到需要的数据,通过不断的检索去噪。每次重新检索都需要重复之前的工作,非常浪费资源。
技术实施要素:
为了解决现有互联网数据采集繁琐、浪费资源的问题,本发明提供了一种快速高效的人工智能采集方法和系统。
为实现上述目的,本发明提供的技术方案为:一种互联网信息人工智能采集方法,包括以下步骤:
构建网页采集模型,构建基于爬虫或搜索引擎检索的模型,获取网络数据;
获取网络信息,利用网页采集模型对大数据平台的文章、新闻、帖子进行数据采集;
数据处理,对采集的数据进行数据处理,包括图像处理、文本翻译、去噪、去重;
数据分析,将处理后的数据按结构划分为数据单元,数据单元自由组合形成数据单元组,然后对数据单元组进行语义匹配,输出匹配度指标,数据单元组提取匹配度最高的指标;
重新学习网页采集模型,将数据分析结果存储并循环交替到深度神经网络,作为网页采集模型的学习样本,模型为分阶段审查和迭代修改;
结果输出,数据分析结果以模块形式显示在人机交互界面中。
上述技术方案中,深度神经网络获取多组内容混洗后的特征数据,将特征数据输入深度神经网络模型进行训练,每组数据通过网络输出一个预测结果并更新深度为训练数据。神经网络模型参数,使用更新后的深度神经网络进行下一组训练,直到深度神经网络模型参数收敛。
在上述技术方案中,进一步地,特征数据包括网站类型、url、文章标题、文章来源、文章发表时间、文章个数转载、文章 点击、文章 评论、文章 摘要、文章 作者。
作为优选的技术方案,图片处理由ocr图片识别模块进行。
此外,本发明提供一种互联网信息人工智能采集系统,包括:网页采集模块,用于采集互联网或大数据平台数据,提取所需文章、新闻、帖子或微博数据,通过深度神经网络重新学习;
数据处理与分析模块用于对网页采集model采集的数据进行分析,包括图像处理、文本翻译、关键词提取、去噪、去重、匹配索引和相似度分析;
数据存储模块用于存储网页采集model采集的数据和数据分析模块的数据;
人机交互模块用于在人机交互界面上显示模块中分析处理后的数据,同时可以通过人机交互界面修改所需的采集内容。
在本系统中,优选地,图片处理由ocr图片识别模块进行。
进一步地,在本系统中,人机交互模块分为信息模块、上报模块、过滤模块、任务模块和统计模块。
本发明相对于现有技术的有益效果是:采集方法基于网页采集模型搜索和分析互联网数据,再结合人机交互展示,通过学习深度神经网络的特征模式,利用深度神经网络将解析后的数据与特征数据进行比较,更新检索分析方法。每进行一次研究,网页采集模型都会提高数据的检索准确率。眼睛和人脑之间的合作水平;类似地,采集系统通过网页采集模型的学习,可以达到无需人工干预的效果。
图纸说明
图1为本发明的方法流程图;
图2为本发明方法的详细流程图;
图3为本发明的系统*敏*感*词*;
图4为本发明系统的详细*敏*感*词*;
图5是系统的整体框架图。
详细说明
下面结合附图对本发明的具体实施方式作进一步说明。需要说明的是,这些实施例的描述是为了帮助理解本发明,并不构成对本发明的限制。此外,以下描述的本发明的各个实施例所涉及的技术特征可以相互组合,只要它们不相互冲突即可。
如图1和图2所示,一种互联网信息人工智能采集方法包括以下步骤:
s10:建立网页采集模型;构建通过爬虫或搜索引擎检索获取网络数据的模型,该模块用于采集互联网或大数据平台数据,提取需要的新闻、帖子或微博数据,通过深度神经网络进行再学习;
s20:获取网络数据;通过网页采集模型对大数据平台的文章、新闻、帖子进行数据采集,包括采集网站类型、url、 文章 标题,文章 出处,文章 出版时间,文章 转载,文章 点击量,文章 评论,文章总结, 文章作者等,并缓存数据,如图2,任务处理引擎根据定时任务获取到要执行的采集任务后,任务处理引擎分配任务到采集下载引擎下载采集网络信息,然后忘记页面解析引擎处理解析网络数据,即下一步s30。
s30:数据处理;对采集的数据进行数据处理,结果处理引擎会处理采集的数据包括图片,通过ocr图片识别模块对图片进行处理,提取图片中的文字或图案; 文本翻译,将网站中的非中文文本通过翻译模块翻译成中文,然后提取文本关键词并与用户设置的关键词进行对比;然后删除内容相同或相似度高的文章、新闻等。
s40:数据分析,将处理后的数据按照结构划分为数据单元,数据单元包括文本的标题和文章的内容,每个标题或内容就是一个数据单元,然后这些数据单位自由处理。组合形成一个数据单元组,然后对该数据单元组进行语义匹配,利用分词技术匹配该数据单元组中的两个或多个数据单元,计算词频、情感、正面和负,然后对上述指标进行加权平均,最终得到匹配度指标,提取匹配度指标最高的数据单元组;
s50:结果输出,将分析处理后的数据,即匹配索引最高的数据单元组中的数据(文章的标题,文章的内容)显示在human -模块中的计算机交互界面,如文章模块、新闻模块、微博模块、帖子模块,通过这些模块将检索信息分别放置在相应的模块中,方便用户查阅;
s60:网页采集模型再学习、网页采集引擎特征优化、样本学习、数据分析结果和人机交互修改的采集数据存储并循环交替到将深度神经网络作为网页采集模型的学习样本,对模型进行阶段性复习和修正。深度神经网络通过获取多组内容来打乱特征数据。特征数据包括网站类型、url、文章标题、文章来源、文章发表时间、文章转载、文章点击量、文章评论,文章摘要,文章作者,然后将特征数据输入深度神经网络模型进行训练,
通过深度神经网络的特征模式学习,利用深度神经网络将解析后的数据与特征数据进行比较,更新检索和分析方法。每次执行学习时,网页 采集 模型将更有效地检索数据。准确的说,经过一定时间的学习,可以达到人眼与人脑协同的程度。
另外,如图所示。3和图。如图4所示,本发明提供一种互联网信息人工智能采集系统,包括:网页采集模块,通过爬虫或搜索引擎检索获取网络数据。模型,该模块用于采集互联网或大数据平台的数据,提取需要的文章、新闻、帖子或微博数据,通过深度神经网络进行再学习。
具体再学习是网页采集模块将数据分析模块分析的结果和人机交互修改后的采集数据存储起来,循环交替到深度神经网络,作为网页采集模型的学习样本进行复习,对模型进行阶段性迭代修改。深度神经网络通过获取多组内容来打乱特征数据。特征数据包括网站类型、url、文章标题、文章来源、文章发表时间、文章转载、文章点击量、文章评论,文章摘要,文章作者,然后将特征数据输入深度神经网络模型进行训练,
数据采集对象包括新闻、论坛、博客、贴吧、网页、微博等。配置监控任务时,可以配置多说关键词,多说关键词同时。@关键词 用 # 分隔。过滤词用于过滤搜索结果。此项目是可选的。
此外,系统还包括一个数据分析模块,即图4中的采集分析引擎,用于图像和文字处理。多种分析方法。对于图片,ocr图片识别模块对图片进行处理,提取图片中的文字或图案;对于文本,包括文本翻译,将网站中的非中文文本通过翻译模块翻译成中文,然后提取文本关键词并与用户设置的关键词进行比较;然后进行去噪,删除相关性低的信息,然后删除内容相同或相似度高的文章、新闻等。重度,包括保护相似度分析,即比较两个或多个文章和新闻文章,最后给出相似度。
系统还包括数据存储模块,存储网页采集model采集的数据和数据分析模块的数据;
系统还包括人机交互模块,将分析处理后的数据以模块的形式显示在人机交互界面上,同时可以通过人机交互界面修改所需的采集内容. 人机交互模块分为文章模块、新闻模块、微博模块、发帖模块、文章模块、新闻模块、微博模块、发帖模块。这些模块用于将检索信息放置在对应的地方另外在人机交互中增加了一个设置模块,需要的采集的内容可以通过设置模块在引擎配置中心进行修改,包括关键字管理、网站管理、链接管理、
如图5所示,用户可以通过管理配置中心访问分布式采集服务器。分布式采集服务器通过网络与互联网、视觉识别引擎服务器、数据存储服务器进行通信。用户同时访问每台服务器,增加了服务器的承载能力,从而提高了用户的体验感。
以上已经参照附图详细描述了本发明的实施例,但是本发明不限于所描述的实施例。对于本领域的技术人员来说,在不脱离本发明的原理和精神的前提下,对这些实施例所作的各种改动、修饰、替换和改动,仍落入本发明的保护范围之内。