智能采集( 一种大数据智能采集处理方法和系统的技术实现要素)
优采云 发布时间: 2022-04-06 03:11智能采集(
一种大数据智能采集处理方法和系统的技术实现要素)
本发明涉及信息技术领域,尤其涉及一种智能处理大数据的方法及系统采集。
背景技术:
随着大数据时代的到来,人们对数据的需求越来越大。由于现实生活中数据源多种多样,未经多次处理就进入数据库的数据很可能会大大降低数据的整体可靠性和有效性。将这些数据用于后续的数据使用,其使用效率非常高。低的。为了获取更有效的文本数据,尤其是供需、销售、交易、电子商务等数据处理,用户需要从海量信息中提取最及时、最有用的数据,同时,适时更新信息量。小数据。
一种数据清洗方法及装置2.9,获取粗略分类的样本数据,将获取的样本数据作为第一数据集;对样本数据进行分类,获取样本数据粗分类类别的权重,根据权重确定样本数据粗分类类别在所有类别中的排序位置;根据所有类别中样本数据的粗分类类别的排序位置和第一数据集中的样本数据总数,得到综合评价结果;当根据综合评价结果确定第一个数据集需要清洗时,
技术实施要素:
本发明的目的是提供一种大数据智能采集处理方法及系统。该方法可以对采集数据进行有效及时的处理,提取出最及时有用的信息量大的数据,同时保留信息量相对较少的数据,方便用户使用有效地使用数据。
一种大数据智能采集处理方法,包括以下步骤:
s1. 设置第一库和第二库;
s2.设置一台或多台网络智能机器人,实时智能抓取公共信息,获取采集数据;
s3.将采集的数据与第一个库中的数据一一比较,当采集数据中的数据a与第一个库中的数据相似时γ小于阈值α,采集数据中的数据a存入第一数据库;否则,采集数据中的数据a存入第二个数据库;
s4. 将采集数据中的数据a存入第二库时,比较采集数据中的数据a与第二库数据的相似度。γ计算;
s41.当采集数据中的数据a与第二个数据库中的一条或多条数据的相似度γ大于阈值β时,则采集数据为收录在Data a中,替换第二个数据库中描述的采集数据中与data a相似度γ最高的一条数据;
s42. 否则,直接将采集的数据中的数据a存入第二个数据库;
当s5.超过时间阈值δ时,将第二个数据库中的数据存入第一个数据库,同时清除第二个数据库中的数据;
s6. 当第二数据库中的数据存储在第一数据库中时,第二数据库中的数据分别与第一数据库中相似度γ最高的一条或多条记录相同。数据被标记为相同类型的数据。
作为一种优化,大数据智能采集处理方法采集的数据包括至少一个发布内容的数据标签。在实际应用中,采集接收到的数据至少收录发布者、发布内容、发布类型三个数据标签。
作为一种优化,大数据智能采集处理方式,在进行数据检索时,只检索第一库中的数据,只显示第一库中同类型的数据。添加的最后一条数据。
作为优化,大数据智能采集处理方法,相似度γ的计算方法为:γ=∑ρi*σi,(i=1..n)
n 是数据标签的数量;
ρi 是第 i 个数据标签的权重值;
σi 是两个数据的第 i 个数据标签的标签相似度。
标签相似度可以通过但不限于余弦相似度算法、简单常用词算法、编辑距离算法、杰卡德距离算法等算法进行计算。
作为优化,大数据的智能采集处理方法,如果第一库中有数据标记为同类型数据φ={ψ1...ψn},n≥2;
ψn+1与φ中的任意一条或多条数据相同,并标记为同类型数据,则同类型数据的数据为φ={ψ1…ψn+1}。
作为优化,大数据智能采集处理方法,公共信息实时智能抓取数据源包括即时聊天工具公共信息网站。
作为优化,大数据的智能采集处理方法,在实时智能捕捉公共信息时,通过关键词或算法对原创数据进行智能提取和分类,得到采集数据。
一种大数据智能采集处理系统,包括:
数据采集模块用于智能实时捕捉公共信息,获取采集数据;
第一个数据库用于最终存储数据并提供外部检索和查询数据;
用于临时存储数据的第二数据库;
数据处理模块,用于判断和操作待存储在第一数据库或第二数据库中的采集数据;
数据同步模块用于定期将第二数据库中的数据存入第一数据库,同时清除第二数据库中的数据。
本发明的大数据智能采集处理方法及系统,采集接收到的海量数据中收录最新的、信息含量高的数据,同时还有大量的接近重复的信息含量低的数据;该方法可以及时提取信息含量高的数据,同时保留信息含量低的数据。通过数据错位更新,方便用户在查看数据时及时查看自己需要的有用信息,提高使用效率。它适合供需。、交易、电子商务等大数据信息服务平台。
图纸说明
下面结合附图和具体实施例对本发明进行详细说明;
无花果。附图说明图1为本发明实施例一涉及的流程*敏*感*词*;
图2为本发明实施例二涉及的结构*敏*感*词*;
无花果。图3为本发明实施例三涉及的采集的处理*敏*感*词*。
详细说明
以下实施例旨在进一步说明本发明,但不应视为限制本发明的保护范围。本领域技术人员根据本发明的内容对本发明进行的一些非本质性的改进和调整,仍属于本发明的保护范围。范围。
实施例一: 如图1所示,大数据智能采集处理方法包括以下步骤:
s1. 设置第一库和第二库;
s2.设置一台或多台智能网络机器人,实时智能抓取网站和即时聊天工具的公开信息,获取采集数据。采集获取的数据至少收录三个数据标签:publisher、content、type;
s3.将采集的数据与第一个数据库中的数据逐一比较。当采集数据中某条数据a与第一库数据的相似度γ小于阈值α时,将采集数据中某条数据a存入第一个数据库;否则,将采集数据中的某条数据a存入第二个数据库;
s4. 将采集数据中的某条数据a存入第二个数据库时,计算采集数据中某条数据a与数据中的数据的相似度γ第二个数据库;
s41.当采集数据中的某条数据a与第二数据库中的一条或多条数据的相似度γ大于阈值β时,则某条数据a在采集数据中,将第二个数据库中相似度γ最高的一条数据替换为采集数据中的某条数据a;
s42. 否则,将数据采集中的某条数据a直接存入第二个数据库;
s5.设置时间阈值δ,当超过时间阈值δ时,将第二数据库中的数据存入第一数据库,同时清除第二数据库中的数据;
s6. 当第二库中的数据存入第一库时,将第二库中的数据与第一库中相似度γ最高的一条或多条数据分别标记为同一类型数据的。
s7.进行数据检索时,只检索第一个库中的数据,对于第一个库中的同类型数据,只显示同类型数据中最后添加的一条数据。
相似度γ的计算方法为:γ=∑ρi*σi,(i=1..n)
n 是数据标签的数量;
ρi 是第 i 个数据标签的权重值;
σi 是两个数据的第 i 个数据标签的标签相似度。
标签相似度可以通过但不限于余弦相似度算法、简单常用词算法、jaccard距离算法和编辑距离算法来计算。
第一库中有数据标记为同类型数据φ={ψ1...ψn},n≥2;
ψn+1与φ中的任意一条或多条数据相同,并标记为同类型数据,则同类型数据的数据为φ={ψ1…ψn+1}。
实施例二: 如图2所示,大数据智能采集处理系统包括:
数据采集模块用于智能实时捕捉网站和即时聊天工具的公开信息,获取采集的数据;
第一个数据库用于最终存储数据并提供外部检索和查询数据;
用于临时存储数据的第二数据库;
数据处理模块,用于判断和操作采集数据进入第一数据库或第二数据库;
数据同步模块用于定期将第二数据库中的数据存入第一数据库,同时清除第二数据库中的数据。
实施例3:大数据智能采集处理方法,包括以下步骤:
s1. 设置第一库和第二库;
s2. 设置多台网络智能机器人,如qq网络智能机器人;实时智能采集即时聊天工具的公开信息,如qq群,获取采集数据,采集接收到的数据收录发布者、内容、类型三个数据标签;
s3.将采集的数据与第一个数据库中的数据逐一比较。当采集数据中某条数据a与第一库数据的相似度γ小于阈值α=0.85,则将某条数据a存入采集 数据进入第一个数据库;否则,将采集数据中的某条数据a存入第二个数据库;
s4. 将采集数据中的某条数据a存入第二个数据库时,计算采集数据中某条数据a与数据中的数据的相似度γ第二个数据库;
s41.当数据采集中的一条数据a与第二库中的一条或多条数据的相似度γ大于阈值β=0.85时, 采集 对于数据中的某条数据a,用采集数据中的某条数据a替换第二库中相似度γ最高的一条数据;
s42. 否则,将数据采集中的某条数据a直接存入第二个数据库;
s5.设置为每天凌晨将第二个数据库中的数据存入第一个数据库,同时清除第二个数据库中的数据;
s6. 当第二库中的数据存入第一库时,将第二库中的数据与第一库中相似度γ最高的一条或多条数据分别标记为同一类型数据的。
s7.进行数据检索时,只检索第一个数据库中的数据,对于第一个数据库中的同类型数据,只显示最后添加的同类型数据中的一条数据。
相似度γ的计算方法为:γ=∑ρi*σi,(i=1、2、3)
1 发布者,2 帖子内容,3 帖子类型
ρ1=0.10、ρ2=0.65、ρ3=0.25、
ρi 是第 i 个数据标签的权重值;
σi 是两个数据的第 i 个数据标签的标签相似度,由编辑距离算法计算得出。
第二个数据库为空时,采集当天的数据如图3所示,第一个数据库经过采集处理后的第二天凌晨之前的数据,第二天凌晨后第一个数据库的数据如下图3所示。
以上是本发明的具体实施方式和所使用的技术原理。如果根据本发明的构思进行改动,其所产生的功能仍不超出说明书和附图所涵盖的精神,则仍应属于本发明的保护范围。