关键词采集词(基于自定义的关键词采集方式进行互联网数据采集系统(组图))
优采云 发布时间: 2022-01-08 15:05关键词采集词(基于自定义的关键词采集方式进行互联网数据采集系统(组图))
本发明涉及数据采集领域,具体涉及一种基于自定义关键词采集方法的互联网数据采集系统。
背景技术:
随着网络技术的不断发展,网络信息资源正以几何级的速度增长。如何从互联网海量信息中快速检索出与用户相关的有用数据,成为亟待解决的问题。搜索引擎是在信息检索技术的基础上发展起来的。搜索引擎有助于本发明更好地表达和存储现实世界中的基本信息,并且通过分析搜索引擎中的连接信息,它可以作为挖掘隐藏信息的有用工具。现有的搜索引擎仅仅依靠有限的搜索词来表达用户需求,存在表达不完整的问题。即使对于相同的搜索词,不同的用户也可能期望不同的结果。例如,在微博系统中,如果考虑微博与相关交互对象的关系,可以抽象为一个异构网络,包括微博、信息、标签、用户等节点。微博与微博之间存在关注者和粉丝关系,微博与信息之间存在发布转发关系,微博与标签之间存在收录关系,用户与微博之间存在所有权关系。现有的搜索工具没有考虑上述多维对象所形成的复杂环境进行数据挖掘。微博与信息的发布转发关系,微博与标签的收录关系,用户与微博的所有权关系。现有的搜索工具没有考虑上述多维对象所形成的复杂环境进行数据挖掘。微博与信息的发布转发关系,微博与标签的收录关系,用户与微博的所有权关系。现有的搜索工具没有考虑上述多维对象所形成的复杂环境进行数据挖掘。
现有基于关键词的数据采集系统一般采用爬虫技术对网页上的关键词进行爬取。但是由于网页上的垃圾信息量很大,采集的数据量比较大。如果不进行分析处理就存储起来,会浪费很多存储空间,也不利于用户查看。
技术实现要素:
本发明的目的是提供一种基于自定义关键词采集方法的互联网数据采集系统,解决现有数据采集@基于< @关键词 >系统一般采用爬虫技术对网页上的关键词进行爬取,但由于网页上的垃圾邮件量大,采集的数据量很大。如果不进行分析处理就存储起来,会浪费存储空间。严重的,同时也不利于用户查看问题。
本发明采用的技术方案如下:
基于自定义关键词采集方法的互联网数据采集系统,包括数据库、数据访问层,还包括:
信息采集和预处理层:根据用户设置的关键词采集互联网开源信息数据,对采集的数据进行预处理,将预处理后的数据送入分析层;
分析层:对预处理层发送的信息采集和数据进行分析,去除收录关键字的无效数据,将剩余数据发送给数据访问层。
进一步的,它还包括一个应用层:用于为查询用户提供查询和检索功能,对检索查询信息进行多维可视化输出,并生成相应的报表。
使用上述系统,信息采集和预处理层通过爬虫技术采集获取所需数据后,分析层分析数据的可靠性并删除垃圾信息。
进一步的,信息采集和预处理层包括搜索引擎的采集模块,采集模块包括爬取站点数据库、爬取站点调度单元、事务管理控制器、事务容器、数据控制器和基础数据库;事务管理控制器用于多个爬取事务的创建、启动、操作控制和销毁;事务容器用于事务资源的管理;数据控制器用于程序和数据库之间的连接。数据交换处理。还包括全局数据源缓存单元、数据调度单元、数据访问管理单元;全局爬取缓存单元用于处理多个事务访问关键资源时的事务等待,每个网络爬虫只有一个全局爬取缓存单元实例。数据访问管理单元用于数据库与程序之间的数据交互处理;数据调度单元实现单事务爬取的调度。当单事务爬取缓存单元中没有爬取时,数据调度单元从全局爬取缓存单元中获取几个爬取到事务的爬取缓存单元;数据调度单元在整个程序中只有一个实例。数据访问管理单元用于数据库与程序之间的数据交互处理;数据调度单元实现单事务爬取的调度。当单事务爬取缓存单元中没有爬取时,数据调度单元从全局爬取缓存单元中获取几个爬取到事务的爬取缓存单元;数据调度单元在整个程序中只有一个实例。数据访问管理单元用于数据库与程序之间的数据交互处理;数据调度单元实现单事务爬取的调度。当单事务爬取缓存单元中没有爬取时,数据调度单元从全局爬取缓存单元中获取几个爬取到事务的爬取缓存单元;数据调度单元在整个程序中只有一个实例。
进一步的,交易容器还包括:
爬取站点缓存单元用于在内存中建立队列,缓存事务要爬取的站点数据;
事务缓存单元,用于缓存事务本身的数据;
存储缓存单元,用于缓存待存储在数据库中的相关数据;
采集事务处理单元用于为采集加载、更新、去重和存储数据;
数据清洗提取单元用于对采集的数据进行清洗,提取有效信息,获取网页质量等级评价的相关信息,获取网页中新的爬取站点;
数据存储与分析单元将清洗提取的数据转换为便于存储的形式,对数据进行压缩,形成数据库搜索字符串以供执行。
进一步地,信息采集和预处理层还包括搜索引擎的分析模块,分析模块对采集的基础数据进行分析处理,建立关键词索引,方便用户搜索.
进一步地,分析层包括编码单元、清理单元、缓冲单元和比较单元。
进一步地,编码单元对预处理层采集得到的数据中的信息采集和关键词进行编码;
清洗单元对信息采集和预处理层得到的数据采集进行清洗,提取关键词前后的字符串,将字符串与关键词对应的编码匹配,并保存它们。进入缓存单元;
分析单元分析缓存单元中的字符串,分析每个字符串出现的频率,并将频率较低的字符串发送到缓存单元的异常数据存储部分。
在流畅的句子中,关键词前后的字符数一般是有限的,而关键词前后的字符大部分是相同的,所以上面的单元模块可以有效的消除爬虫技术< @k11@ > 数据中的垃圾信息,节省存储空间,提高用户查看数据的效率。
进一步的,互联网数据采集系统的数据采集方法包括以下步骤:
一个。信息采集和预处理层是基于用户设置的关键词采集互联网开源信息数据,数据为带有关键词@的网页参数和网页内容>、对采集的数据进行预处理,并将预处理后的数据发送给分析层编码单元;
湾 编码单元对来自信息采集和预处理层采集的数据中的关键词进行编码,并对每个关键词的编码进行一一匹配;
C。清洗单元从信息采集和预处理层采集中清洗数据,提取关键词前后的字符串,将字符串与关键词对应的编码匹配然后存储在缓存单元中;
d. 分析单元对缓存单元中的字符串进行分析,分析每种字符串出现的频率,将频率较低的字符串发送到缓存单元的异常数据存储部分;提取匹配的<关键词,将对应的关键词匹配的网页存入数据库;
e. 用户可以通过应用层查看数据库中的内容,也可以通过应用层查看异常数据存储部分的数据,并进行移动或永久删除的操作。
综上所述,由于采用了上述技术方案,本发明的有益效果是:
1.本发明基于自定义关键词采集互联网数据方法采集系统,采用高效数据的事务控制策略采集,旨在在多维对象之间的数据耦合关系用于数据挖掘。
2.本发明基于自定义关键词采集互联网数据方法采集系统,解决现有数据采集基于关键词 系统一般采用爬虫技术对网页上的关键词进行爬取,但由于网页上的垃圾邮件量大,采集的数据量很大。如果不进行分析处理就存储起来,会浪费很多存储空间。,同时不利于用户查看问题。
详细说明
本说明书中公开的所有特征,或方法或过程中的所有公开步骤,可以以任何方式组合,除了相互排斥的特征和/或步骤。
示例 1
基于自定义关键词采集方法的互联网数据采集系统,包括数据库、数据访问层,还包括:
信息采集和预处理层:根据用户设置的关键词采集互联网开源信息数据,对采集的数据进行预处理,将预处理后的数据送入分析层;
分析层:对预处理层发送的信息采集和数据进行分析,去除收录关键字的无效数据,将剩余数据发送给数据访问层。
进一步的,它还包括一个应用层:用于为查询用户提供查询和检索功能,对检索查询信息进行多维可视化输出,并生成相应的报表。
使用上述系统,信息采集和预处理层通过爬虫技术采集获取所需数据后,分析层分析数据的可靠性并删除垃圾信息。
示例 2
本实施例与实施例一的区别在于,进一步地,信息采集和预处理层包括搜索引擎的采集模块,采集模块包括爬取站点数据库,爬网调度单元、事务管理控制器、事务容器、数据控制器、基础数据库;事务管理控制器用于多个爬取事务的创建、启动、操作控制和销毁;事务容器用于事务资源管理;数据控制器用于程序与数据库之间的数据交换处理。还包括全局数据源缓存单元、数据调度单元、数据访问管理单元;全局爬取缓存单元用于处理多个事务访问关键资源时的事务等待,每个网络爬虫只有一个全局爬取缓存单元实例。数据访问管理单元用于数据库与程序之间的数据交互处理;数据调度单元实现单事务爬取的调度。当单事务爬取缓存单元中没有爬取时,数据调度单元从全局爬取缓存单元中获取几个爬取到事务的爬取缓存单元;数据调度单元在整个程序中只有一个实例。数据访问管理单元用于数据库与程序之间的数据交互处理;数据调度单元实现单事务爬取的调度。当单事务爬取缓存单元中没有爬取时,数据调度单元从全局爬取缓存单元中获取几个爬取到事务的爬取缓存单元;数据调度单元在整个程序中只有一个实例。数据访问管理单元用于数据库与程序之间的数据交互处理;数据调度单元实现单事务爬取的调度。当单事务爬取缓存单元中没有爬取时,数据调度单元从全局爬取缓存单元中获取几个爬取到事务的爬取缓存单元;数据调度单元在整个程序中只有一个实例。
进一步的,交易容器还包括:
爬取站点缓存单元用于在内存中建立队列,缓存事务要爬取的站点数据;
事务缓存单元,用于缓存事务本身的数据;
存储缓存单元,用于缓存待存储在数据库中的相关数据;
采集事务处理单元用于为采集加载、更新、去重和存储数据;
数据清洗提取单元用于对采集的数据进行清洗,提取有效信息,获取网页质量等级评价的相关信息,获取网页中新的爬取站点;
数据存储与分析单元将清洗提取的数据转换为便于存储的形式,对数据进行压缩,形成数据库搜索字符串以供执行。
进一步地,信息采集和预处理层还包括搜索引擎的分析模块,分析模块对采集的基础数据进行分析处理,建立关键词索引,方便用户搜索.
进一步地,分析层包括编码单元、清理单元、缓冲单元和比较单元。
进一步地,编码单元对预处理层采集得到的数据中的信息采集和关键词进行编码;
清洗单元对信息采集和预处理层得到的数据采集进行清洗,提取关键词前后的字符串,将字符串与关键词对应的编码匹配,并保存它们。进入缓存单元;
分析单元分析缓存单元中的字符串,分析每个字符串出现的频率,并将频率较低的字符串发送到缓存单元的异常数据存储部分。
在流畅的句子中,关键词前后的字符数一般是有限的,而关键词前后的字符大部分是相同的,所以上面的单元模块可以有效的消除爬虫技术< @k11@ > 数据中的垃圾信息,节省存储空间,提高用户查看数据的效率。
示例 3
本实施例为本方案的实施方法。进一步的,互联网数据采集系统的数据采集方法包括以下步骤:
一个。信息采集和预处理层是基于用户设置的关键词采集互联网开源信息数据,数据为带有关键词@的网页参数和网页内容>、对采集的数据进行预处理,并将预处理后的数据发送给分析层编码单元;
湾 编码单元对来自信息采集和预处理层采集的数据中的关键词进行编码,并对每个关键词的编码进行一一匹配;
C。清洗单元对信息采集和预处理层得到的数据采集进行清洗,提取出关键词前后2个字符的字符串,并对应到关键词代码匹配后,存入缓存单元;
d. 分析单元对缓存单元中的字符串进行分析,分析每个字符串的出现频率,对字符串的出现频率进行排序,将出现频率在底部61.8%的字符串发送给缓存单元 异常数据存储部分;提取剩余字符串中匹配的关键词,并将对应的关键词匹配网页存入数据库;
e. 用户可以通过应用层查看数据库中的内容,也可以通过应用层查看异常数据存储部分的数据,并进行移动或永久删除的操作。
以上仅为本发明的较佳实施例而已,但本发明的保护范围并不限于此。本领域的任何技术人员都可以在本发明所公开的技术范围内,在没有创造性劳动的情况下,想出变化或变化。替换物应收录在本发明的保护范围之内。因此,本发明的保护范围应以权利要求所限定的保护范围为准。