智能文章采集( 本发明深度神经网络通过获取多组内容混排特征数据采集方法(图))
优采云 发布时间: 2021-09-04 14:10智能文章采集(
本发明深度神经网络通过获取多组内容混排特征数据采集方法(图))
本发明涉及网络信息采集技术领域,具体涉及一种通过网页采集模型实现的互联网信息采集的方法和系统。
背景技术:
随着互联网的飞速发展和大数据平台的出现,网络信息的海量难以形容,从网络数据中搜索和查询所需的数据更加麻烦。现有的搜索方式一般都是通过搜索引擎或专业数据库中的搜索进行搜索,但由于数据更新速度快,每次都需要进行搜索和复查,不仅浪费时间,而且效率低下。
另外,对于一些数据采集系统,需要的数据通常是通过不断的检索和不断的数据分析去噪得到的。每次检索都需要重复之前的工作,浪费资源。 .
技术实现要素:
为了解决现有互联网数据采集繁琐、浪费资源的问题,本发明提供一种快速高效的人工智能采集方法和系统。
为实现上述目的,本发明提供的技术方案为:一种互联网信息人工智能采集方法,包括以下步骤:
建立网页采集模型,建立基于爬虫或搜索引擎检索获取网络数据的模型;
获取网络信息,使用网页采集模型在大数据平台采集上进行文章、新闻、帖子的数据;
数据处理,采集数据的数据处理,包括图像处理、文本翻译、去噪、去重;
数据分析,将处理后的数据按照结构划分为数据单元,自由组合数据单元组成数据单元组,然后对数据单元组进行语义匹配,输出匹配索引,提取数据匹配指数最高的单位组;
重新学习网页采集model,将数据分析后的结果存储起来,交替发送到深度神经网络,作为网页采集model的学习样本,定期回顾和迭代修改模型;
结果输出,数据分析的结果以模块的形式展示在人机交互界面中。
上述技术方案中,深度神经网络获取多组内容混合特征数据,并将特征数据输入深度神经网络模型进行训练。每组数据通过网络输出预测结果并训练数据更新深度神经网络模型参数,更新后的深度神经网络用于下一组训练,直到深度神经网络模型参数收敛。
上述技术方案中,特征数据包括网站type、URL、文章title、文章source、文章posting time、文章转载量、文章click Number、 文章评论号,文章abstract,文章author。
作为优选的技术方案,图片处理由OCR图片识别模块进行。
另外,本发明提供了一种互联网信息人工智能采集系统,包括:网页采集模块,用于采集互联网或大数据平台数据,提取需要的文章、新闻、帖子或者微博数据,通过深度神经网络重新学习;
数据处理分析模块,用于对采集模型采集网页的数据进行分析,包括图像处理、文本翻译、关键词提取、去噪、去重、匹配索引和相似度分析;
数据存储模块用于存储网页采集模型采集的数据和数据分析模块的数据;
人机交互模块用于在人机交互界面显示分析处理后的数据子模块,同时可以通过人机交互修改采集的内容界面。
本系统中,图片处理优选由OCR图片识别模块进行。
进一步,在系统中,人机交互模块分为信息模块、报表模块、过滤模块、任务模块和统计模块。
本发明相对于现有技术的有益效果是采集方法是基于webpage采集模型对互联网数据进行检索和分析,然后结合人机交互展示,通过深度神经网络的特征模式,利用深度神经网络将解析数据与特征数据进行比较,更新检索分析方法,每次学习网页采集模型都会提高数据检索的准确率,经过一定的学习,可以达到人眼和人脑的协调水平;同理,采集系统通过对网页采集模型的学习,可以达到无需人工干预的效果。
图纸说明
图1为本发明方法的流程图;
图2为本发明方法的详细流程图;
图3为本发明的系统*敏*感*词*;
图4为本发明系统的详细*敏*感*词*;
图5是系统的总体框架。
具体实现方法
下面结合附图对本发明的具体实施例作进一步说明。在此需要说明的是,这些实施例的描述用于帮助理解本发明,并不构成对本发明的限制。另外,在不相互冲突的情况下,下述本发明的各个实施例所涉及的技术特征可以相互组合。
如图1和图2所示,一种互联网信息人工智能采集方法包括以下步骤:
S10:构建网页采集模型;构建通过爬虫或搜索引擎检索获取网络数据的模型。该模块用于采集互联网或大数据平台数据提取所需的文章、新闻、帖子或微博数据,并通过深度神经网络重新学习;
S20:获取网络数据;使用网页采集模型在大数据平台采集上进行文章、新闻、帖子的数据,包括采集网站类型、URL、文章标题、文章source、 文章发帖时间、文章转发量、文章点击数、文章评论数、文章abstract、文章author等数据,并缓存数据,如图2,任务处理引擎根据定时任务获取到要执行的采集任务后,任务处理引擎将任务发送给采集download引擎下载采集网络信息,然后忘记页面分析引擎对分析网络数据进行处理,即下一步S30。
S30:数据处理; 采集数据的数据处理,结果处理引擎将采集数据包括图像处理,通过OCR图像识别模块对图像进行处理,提取出图像中的文字或图案;文本翻译:通过翻译模块将网站中的非中文文本翻译成中文,然后提取文本关键字并与用户设置的关键字进行比较;然后进行去噪,删除低相关信息,然后删除内容 相同或高度相似的文章、新闻等删除时删除。
S40:数据分析。处理后的数据根据结构分为数据单元。数据单元包括文本标题和文章内容。每个标题或内容都是一个数据单元,然后将这些数据单元进行处理,自由组合形成一个数据单元组,然后对数据单元组进行语义匹配。使用分词技术将数据单元组中的两个或多个数据单元进行匹配,计算词频、情感、正负等相关技术指标,然后将上述指标进行加权平均,最终得到匹配指标,提取匹配指数最高的数据单元组;
S50:结果输出,分析后的数据,即匹配指数最高的数据单元组中的数据(文章的标题,文章的内容)显示在人机交互界面中模块,例如文章模块、新闻模块、微博模块、发帖模块,利用这些模块将检索到的信息放在相应的模块中,方便用户参考;
S60:网页采集模型再次学习,网页采集引擎特征优化,样本学习,数据分析结果和人机交互修改采集数据被存储并交替发送到深度神经network ,作为网页采集模型的学习样本,定期对模型进行复习和迭代修改。深度神经网络获取多组内容混合特征数据,包括网站type、URL、文章title、文章source、文章publication time、文章转载量、文章clicks、文章评论数、文章abstract、文章author,然后将特征数据输入到深度神经网络模型中进行训练,每组数据通过网络输出预测结果并更新深度神经网络模型训练数据参数,使用更新后的深度神经网络进行下一组训练,直到深度神经网络模型参数收敛,网页采集model学习完成。
通过深度神经网络的特征模型学习,利用深度神经网络将解析数据与特征数据进行比较,更新检索分析方法。每次学习,网页采集模型会检索到的数据更加准确,经过一定时间的学习,可以达到人眼与人脑协同的程度。
另外,如图3和图4所示,本发明提供了另一种互联网信息人工智能采集系统,包括:网页采集模块,利用爬虫或搜索引擎检索网络数据模型,该模块用于采集互联网或大数据平台数据,提取所需的文章、新闻、帖子或微博数据,并通过深度神经网络重新学习。
具体的重新学习是网页采集模块存储数据分析模块的分析结果和人机交互中修改的采集数据,交替发送到深度神经网络作为网页采集模型的学习样本,并定期回顾和迭代修改模型。深度神经网络获取多组内容混合特征数据,包括网站type、URL、文章title、文章source、文章publication time、文章转载量、文章clicks、文章评论数、文章abstract、文章author,然后将特征数据输入到深度神经网络模型中进行训练,每组数据通过网络输出预测结果并更新深度神经网络模型训练数据参数,使用更新后的深度神经网络进行下一组训练,直到深度神经网络模型参数收敛,网页采集模块正在学习。
Data采集对象包括新闻、论坛、博客、贴吧、网页、微博等,配置监控任务时,可以配置多个关键词和多个关键词之以#号分隔。过滤词用于过滤搜索结果。此项目是可选的。
此外,系统还收录一个数据分析模块,即图4中的采集分析引擎,用于图像和文字处理。任务引擎获取任务后,对采集数据进行分析,多少是一种分析方法。对于图像,通过OCR图像识别模块对图像进行处理,提取出图像中的文字或图案;对于文本,包括文本翻译,通过翻译模块将网站中的非中文文本翻译成中文,然后提取文本关键字并与用户设置的关键字进行比较;然后去除噪声,删除相关性低的信息,删除内容相同或相似度高的文章、新闻等进行去重。保护相似度分析,即比较两个或多个文章和新闻,最后给出相似度。
系统还包括数据存储模块,存储网页采集模型采集的数据和数据分析模块的数据;
系统还包括人机交互模块,将分析处理后的数据显示在人机交互界面中。同时可以通过人机交互界面修改采集的内容。人机交互模块分为文章模块、新闻模块、微博模块、帖子模块、文章模块、新闻模块、微博模块、帖子模块。这些模块用于将检索到的信息放置在相应的模块中。方便用户阅读;另外在人机交互中增加了设置模块,可以通过设置模块修改采集的内容修改引擎配置中心,包括关键词管理、网站管理、链接管理、标题管理、过滤器字词管理、作者设置等。用户可以根据设置的URL只搜索和检索网站的文章或新闻,或者只搜索作者相关的文章等
如图5所示,用户可以通过管理配置中心访问分布式采集服务器,分布式采集服务器通过网络与互联网、视觉识别引擎服务器、数据存储服务器进行通信网络,可以实现多个用户同时访问每台服务器,增加了服务器的承载能力,从而提高了用户体验。
以上参照附图详细描述了本发明的实施例,但本发明不限于所描述的实施例。对于本领域的技术人员来说,在不脱离本发明的原则和精神的前提下,对这些实施例所做的各种变化、修改、替换和变型,仍然属于本发明的保护范围。