解决方案:爱站seo工具包之关键词监控工具怎么用 关键词监控工具使用方法
优采云 发布时间: 2022-10-02 09:13解决方案:爱站seo工具包之关键词监控工具怎么用 关键词监控工具使用方法
爱站seo工具包之关键词监控工具怎么用?小编将在下文演示爱站seo工具包之关键词监控工具使用方法,“关键词监控”对于SEOer来说是个很实用的功能哦~
1、添加任务
这里分为两种任务类型。一种是单URL对应多个关键词。适合于监控单个网站的多个关键词排名。另一种是单关键词对应多个域名,适合于针对单个关键词的站群网站或者竞争对手网站的关键词排名监控。
2、选定建好的任务,点击右上角的关键词管理,添加关键词。
3、添加完成关键词之后便可启动任务开始监控。
关键词的即时排名、百度指数、排名变化,一览无遗;点击任意关键词,可看到该关键词的历史排名记录及其变化曲线图,还可自由选择任意时间段进行查看。
所有关键词的历史排名展示如下图。
4、最后对关键词排名情况进行一个整体性分析,统计百度的第几页有多少个关键词有排名。
有了这款功能全面的关键词工具,SEOer们不再需要用复杂的Excel公式来管理排名了。
解决方案:一种基于决策树算法的ETL文件数据采集到库的方法与流程
一种基于决策树算法的etl文件数据采集入库方法
技术领域
1.本发明涉及数据采集技术领域,具体涉及一种配置简单的基于决策树算法的etl文件数据采集入库的方法,采集 @采集高效率。
背景技术:
2.用于将数据采集 传输到库的现有 elt 方法包括从源提取、转换和加载数据到目标数据库。ETL 是一个极其复杂的过程。每次构建采集执行任务时,都需要先配置相应的模板规则。配置比较繁琐,数据采集越复杂,占用内存越多,采集采集效率低。
3.因此,有必要提出改进方案来克服现有技术的不足。
技术实施要素:
4.本发明的目的在于解决现有技术中存在的问题,提供一种配置简单、采集高效传输etl文件数据的方法采集库中的决策树算法。
5.本发明的技术方案是:
6.一种基于决策树算法的将etl文件数据采集转入库的方法,包括以下步骤: s1、管理员根据采集目标数据执行采集规则的配置;s2、使用etl工具提取数据并存入数据集中;s3、使用决策树算法,根据熵值比较构造最优规则筛选树结构;集和规则集计算,得到每个规则和数据集对应的熵,比较多个熵得到最优熵,从规则集中删除最优熵所代表的规则属性,直到只剩下一条规则rule set 获取最终的叶子节点;s4、 根据决策树树表示的最优筛选顺序,依次生成对应的正则表达式;s5、 将正则表达式导入etl运行,清理过滤,得到结果,将结果导入数据库。
7.作为优选的技术方案,步骤s3具体为: s31、识别并检查父规则下是否有子集,如果有子集,则将所有子集存储在规则集中,进行步骤s32;如果不是,则为父规则生成正则表达式;s32、计算数据集和规则集,得到每个规则和数据集对应的熵,并进行多次熵比较,得到最优熵;s33、检查规则集中已有规则的条数,如果多于两条,则从规则集中删除当前最优熵表示的规则属性,执行步骤s34;如果只有两个,则从规则集中删除所表示的规则属性,得到最优的规则筛选树结构;s34、
8.作为进一步优选的技术方案,在步骤s32中,熵计算公式为: 其中,a为属性,v为属性a可能取值的个数,d为数据,选择属性a to 将数据 d 分为 v 个分支,第 u 个节点收录数据集 d 中在特征 a 上值为 au 的样本总数,记为 du。
9.作为另一种更优选的技术方案,如果步骤s32中第一次计算熵,则该节点为决策树的根节点。
10.一种基于本发明的决策树算法将etl文件数据采集转入库的方法,利用决策树算法得到最优规则筛选序列运行etl采集@ >。大大提高采集的效率和速度。本发明的一种基于决策树算法的etl文件数据采集入库的方法,基于该算法,充分发挥了算法的优点,提高了处理准确采集@的效率。 > 大数据量的文件数据。,加强对数据的控制和可分析数据的上限。同时内置大量规则和基础数据元素,可自由配置对采集的目标数据进行操作和控制 在海量数据中,同时也可以结合用户的实际业务应用,适用于各种数据场景。本发明的一种基于决策树算法的etl文件数据采集入库的方法,具有配置简单、应用场景广、效率高的优点采集。
图纸说明
11. 图。附图说明图1为本发明基于决策树算法的etl文件数据采集转库方法的具体实现流程图。
详细方法
12.为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施例中的技术方案进行清楚、完整的描述。本发明的实施例。显然,所描述的实施例是本发明的部分实施例,而非全部实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
13.本发明实施例中使用的术语仅用于描述具体实施例,并不用于限制本发明。在本发明的实施例和所附权利要求中使用的单数形式“a”、“the”和“the”旨在也包括复数形式,除非上下文另有明确规定,“复数”一般,至少包括两种,但不排除包括至少一种的情况。
14.应该理解,本文中使用的术语“和/或”只是描述相关对象的关联关系,表示可以有3种关系,例如a和/或b , 可以表示:a独立存在,a和b都有,b单独存在三种情况。另外,本文档中的字符“/”一般表示相关对象是“或”关系。
15.根据上下文,这里使用的“如果”、“如果”等词可以解释为“在
...
何时”或“何时
...
或“响应于确定”或“响应于检测”。类似地,根据上下文,短语“如果确定”或“如果检测(陈述或事件)”可以解释为“当确定”或“响应于确定”或“当检测(陈述的条件或事件) ”或“响应检测(陈述的条件或事件)”。
16.还应注意,术语“收录”、“收录”或其任何其他变体旨在涵盖非排他性收录,即由一组元素组成的商品或系统不仅包括这些元素,还包括未明确列出的其他要素,或商品或系统固有的要素。在没有进一步限制的情况下,声明“包括
……”
定义的元素不排除在收录所述元素的商品或系统中存在另一个相同的元素。
17. 图。图1示出了本发明基于决策树算法将etl文件数据采集传输到库的方法的具体实现。本实施例基于决策树算法的etl文件数据采集入库的方法包括以下步骤:
18.s1、管理员根据目标数据配置采集规则为采集;
19.s2、使用etl工具提取数据并存入数据集中;
20.s3、使用决策树算法根据熵值比较构造最优规则筛选树结构;计算数据集和规则集,得到每个规则和数据集对应的熵,将比较每个熵得到最优熵,从规则集中删除最优熵表示的规则属性,直到规则集中只剩下一条规则来获取最终的叶子节点;
21.s4、根据决策树树表示的最优筛选顺序,依次生成规则到对应的顺序正则表达式;
22.s5、将正则表达式导入etl运行,清洗过滤,得到结果,将结果导入数据库。
23.其中,熵用来定量表示信息的聚合程度、信息的期望值,是衡量样本集纯度的常用指标。决策树算法的关键是如何选择最优的属性分类。所谓二元分类最优是指判断次数最少,即尽量使划分后的数据属于同一类别,即“纯度”最高的属性。
24.具体来说,步骤s3具体为:
25.s31、识别并检查父规则下是否有子集,如果有子集,将所有子集保存到规则集中,执行步骤s32;如果不是,则父规则生成正则表达式;
26.s32、计算数据集和规则集,得到每个规则和数据集对应的熵,比较多个熵得到最优熵;
27.s33、 查看规则集中已有规则的条数,如果多于两条,则从规则集中删除当前最优熵表示的规则属性,进入步骤s34 ; 如果只有两个,则从规则集中删除所表示的规则属性,得到最优的规则筛选树结构;
28.s34、 将当前最优熵表示的规则过滤的目标数据替换到数据集中,循环s32、s33。
29.步骤s32,熵计算公式为:
[0030] [0031]
其中,一个离散属性a有v个可能取值,比如舆情新闻数据属性state,有2个可能取值:like和dislike。如果选择属性a来划分数据d,则会产生v个分支,其中第u个节点收录数据集d中在特征a上值为au的样本总数,记为du。信息熵可以根据上面的信息熵公式计算,每个分支拥有的样本数占样本总数的比值作为每个分支节点的权重。
[0032]
比如属性选为a=news status,那么v=2就是喜欢和不喜欢。比如数据d有6个样本,那么经过新闻状态分类后,就有d1和d2两个样本,其中d1有4个,d2有2个。所以:
[0033]
ent(d1)=-2/4*log2*2/4-2/4*log2*2/4=1;
[0034]
ent(d2)=-2/2*log2*2/2=0;
[0035]
增益(d,petalcolor)=ent(d)-4/6ent(d1)-2/6ent(d2)=0.2516;
[0036]
熵是 0.2516。
[0037]
熵越大,使用该属性区分结果集的纯度越高,这是最优的。如果同一级别还有其他规则类别属性,则以同样的方式计算对应的熵,并将所有的熵相互比较,比较后熵最大的属性作为节点分支。如果是第一次比较,即根节点是第一次判断的条件。
[0038]
一种基于本发明的决策树算法将etl文件数据采集转入库的方法,利用决策树算法获得运行etl采集的最优规则筛选顺序,可以大大提高采集@ > 高效速度。本发明之一
一种基于决策树算法的将etl文件数据采集转入库的方法。在该算法的基础上,充分发挥算法优势,提高对大容量文件数据的准确处理效率采集,加强数据控制和可分析数据的上限。同时内置了大量的规则和基础数据元素,可以自由配置对大量数据中采集的目标数据进行操作和控制,也可以进行组合同时。用户的实际业务应用适用于各种数据场景。本发明的一种基于决策树算法的etl文件数据采集转库的方法,具有配置简单的优点,
[0039]
综上所述,以上仅为本发明的较佳实施例而已,并不用于限制本发明的实施范围。即,凡根据本发明专利范围的内容所作的等同变化和修饰,均属于本发明的技术范围。