免规则采集器列表算法(【技术分析】Apriori关联规则挖掘的重要算法(一))

优采云 发布时间: 2021-11-04 09:05

  免规则采集器列表算法(【技术分析】Apriori关联规则挖掘的重要算法(一))

  1 关联分析算法:Apriori

  挖掘关联规则的重要算法:Apriori

  关联规则挖掘允许我们从数据集中发现项目(项目和项目)之间的关系

  概念:

  支持度:指一个项目在组合中出现的次数与总次数的比值。支持度越高,组合频率越高。

  置信度:指A发生时B发生的概率。

  提升:指A的出现增加B出现的概率的程度。

  公式:Lift(A→B)=Confidence(A→B)/Support(B),用于衡量A出现时B出现的概率

  频繁项集:支持度大于或等于最小支持度(Min Support,可随机指定)阈值的项集,所以小于最小支持度的项为非频繁项集,大于或等于最小支持度的项集为频繁项集。

  工作准则:

  1 初始化K=1,计算K个项集的支持度;

  2 过滤掉小于最小支持度的项集(随机指定);

  3 如果项集为空,对应的K-1项集的结果为最终结果,或者项集只有一行,则该行为结果;

  否则 K=K+1,重复步骤 1-3。

  FP-Growth 算法:改进 Apriori

  先验缺陷:

  1 可能产生大量候选集。因为排列组合,所以组合了所有可能的项集;

  2 每次计算都需要重新扫描数据集,计算每个项目集的支持度。

  FP-Growth 特点:

  1 创建一个 FP 树来存储频繁项集。不满足最低支持级别的项目在创建前被删除,减少存储空间。

  2 整个生成过程只遍历数据集两次,大大减少了计算量。

  FP-Growth原理:

  1 创建项目头表(item header table)

  先扫描数据集,将满足最小支持度的单项(K=1项集)从高到低排序。在这个过程中,不满足最小支持度的项目被删除。

  2 构造FP树

  将根节点标记为NULL节点,对过滤后的数据集进行扫描,对于每条数据,按照支持度从高到低的顺序创建节点;

  如果节点存在,则计数count+1,如果不存在,则创建。同时,在创建过程中,需要更新项头表的链表。

  3 通过FP树挖掘频繁项集

  具体操作会用到一个叫做“条件模式库”的概念;

  就是说要挖掘的节点是叶子节点,自下而上寻找FP子树,然后将FP子树的祖先节点设置为叶子节点的总和。

  2 PageRank

  目的是找到高质量的网页。网页之间会形成一个网络,即互联网。论文之间也存在相互引用关系。可以说

  当前的网络环境是各种网络的集合。只要有网络,就会有传出和传入链,会有PR权重计算,可以用PageRank算法,社交网络也可以用这个算法来计算一个人的影响力

  概念:外链指的是外链。传入链接是指传入链接;图中,页面A有2个传入链接和3个传出链接。

  

  在简化模型中,一个网页的影响力=链集合中所有页面的加权影响力之和:

  

  u 是要评估的页面,是页面 u 的内链集。对于链内集合中的任意页面v,它可以给u带来的影响是它自身的影响力PR(v)除以v页面的外链数,即页面v平均分配影响力PR( v) 把它给出链接,这样就统计了所有能给u带来链接的页面v,得到的总和就是网页u的影响力,即PR(u)。

  为了解决简化模型中的层级泄露和层级下沉问题,出现了一种随机浏览模型:用户并不总是按照跳转链接上网,并且有可能无论他们当前在哪个页面上,他们有机会访问 转到任何其他页面,因此定义了阻尼因子 d。该因子表示用户根据跳转链接上线的概率。通常一个固定值可以取0.85,1-d=0.15表示用户不通过跳转链接访问网页,比如直接输入网址,公式为:

  

  其中N为网页总数,由于加入了阻尼因子d,在一定程度上解决了水平泄漏和水平下沉的问题。

  3 逻辑回归

  逻辑回归,也叫逻辑回归,是一种常用的数据挖掘算法

  虽然名字中有“回归”,但实际上是一种分类方法,主要解决二分类问题。当然,它也可以解决多分类问题,但二分类更常见。

  Logistic 函数用于逻辑回归,也称为 Sigmoid 函数。

  Sigmoid 函数是深度学习中经常使用的函数之一。函数公式为:

  

  函数的图形类似于S形

  

  为什么逻辑回归算法基于 Sigmoid 函数?

  我们要实现一个二元分类任务,0表示不发生,1表示发生;

  给定一些历史数据X和y,其中X代表样本的n个特征,y代表正负样本,即0或1的值。

  通过对历史样本的学习,我们可以得到一个模型,当给定新的 X 时,可以预测 y。

  这里得到的y是一个预测概率,通常不是0%和100%,而是中间值,那么可以认为,当概率大于50%时,就是发生了(正例),当概率小于 50% ,即不会发生(负情况)。这样就完成了二分类预测。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线