免规则采集器列表算法(【关键词】数据挖掘关联规则apriori算法(一)(组图))

优采云 发布时间: 2022-01-10 20:40

  免规则采集器列表算法(【关键词】数据挖掘关联规则apriori算法(一)(组图))

  【摘要】数据挖掘在当今社会发挥着越来越重要的作用,关联规则是数据挖掘的主要方法之一。基于关联规则的数据挖掘主要用于发现数据集中项目之间的联系。本文首先介绍了数据挖掘和关联规则的相关概念和算法,然后以超市购物为例,利用先验算法,利用数据挖掘软件Clementine找出顾客购买的产品之间的内在关系。

  【关键词】数据挖掘关联规则先验算法clementine

  一、简介

  关联规则是数据挖掘的重要方法。目的是揭示给定数据集中的数据项与存在的各种有用信息之间的内在关联。信息以推断有关其他相关数据项的信息。如今,关联规则已经扩展到许多领域。本文通过对某超市顾客购买商品的抽样数据处理,得出相关结果并进行分析。

  二、关联规则的相关概念

  关联规则有助于发现大量数据库中项目集之间的关联。与传统的产生式不同,关联规则可以有一个或多个输出属性,一个规则的输出属性可以是另一个规则的输入属性。关联规则是购物篮分析的常用技术,因为可以找到潜在的有趣产品组合。

  关联规则挖掘通过对规则的支持度和置信度来衡量兴趣度,反映了发现规则的有用性和确定性。

  支持:设D为事务集,X和Y为项集,有一条规则X→Y。如果D中收录X∪Y的交易比例为s%,则称X→Y有支持s,即概率P()。

  置信度:设 D 为事务集,X 和 Y 为项集,有一条规则 X→Y。如果 D 中 c% 的交易同时收录 X 和 Y,则 X→Y 有一个置信度 c,即条件概率 P(Y│X)。

  一般情况下,最小支持度和最小置信度由用户给出,关联规则发现的任务是从数据库中找出支持度和置信度都大于给定阈值的强规则。也就是说,挖掘关联规则的关键是在大型数据库中发现的强规则。支持度是一个有效的评价指标。如果支持度的值太小,说明对应的规则只是偶然出现在整个交易集中,在商业应用中,该规则很可能没有价值。置信度的大小决定了规则的可预测性。如果所选规则的置信度值太小,则表明很难从 X 中可靠地推断出 Y。同样,

  三、Apriori算法介绍

  Apriori算法是关联规则挖掘的基本算法。该算法利用上一次循环产生的大项集构造一个新的候选项集,然后扫描数据库,计算候选项集的支持数,扫描结束得到大项集。具体来说,在第一个循环中,通过扫描数据库得到一个大订单项集,在随后的第k(k>1)个循环中,第k-1个循环产生的k-1个项为大项set Lk-1执行Apriori-gen运算生成k个候选项目集CK,再次扫描数据库得到CK的支持数,得到支持数不小于最小支持的k阶大项目集Lk CK中的数字。重复上述步骤,

  四、基于Clementine的关联规则的实际应用

  (一)数据处理

  本文选取某超市1000条销售数据,属性包括卡号、消费、性别、支付方式、收入、购买的各类商品。由于本文主要研究商品的关联规则,因此可以利用clementine中的Filter节点过滤掉卡号、消费等不必要的属性,只留下水果、鲜肉、奶制品等食品。

  (二)创建数据流步骤

  双击sources中的var.file,使节点var.file进入数据流区,双击打开导入数据;在field ops中,选择filter并双击进入数据流区域,打开后去掉前七个属性;选择节点表,可以查看处理属性后的数据;在ops字段中选择type节点,进入数据流区域后双击打开,所有方向都选择为both,即每个属性都是双向的;选择建模中的Apriori节点,双击打开后选择置信度为80%,支持度为15%。双击graphs中的节点web,进入数据区打开,选择所有属性,选择show true flags only,点击option选项,弱链接设置在40%以下,强链接设置在80%以上。

  (三)运行结果及分析

  运算结果。强相关15组,中度相关37组,弱相关3组。相关性最强的是cannedveg和frozenmeal,达到173,支持度为16.7%,置信度为87.425%,frozenmeal和beer以及cannedveg和beer的相关性也很强,分别达到 170 和 167;而相关性最弱的是乳制品和罐头肉、鲜肉和乳制品、乳制品和软饮料,分别只有 31、33 和 35。

  结果分析和建议。从以上结果可以看出,在罐头蔬菜、冷冻食品和啤酒中,顾客更有可能先购买其中一种,然后再购买另外两种或其中一种。超市管理者可以通过以上结果调整产品的摆放位置。将三款产品放在一起,方便客户选择。有时超市会进行促销,这可能会降低其中一种产品的价格。购买促销产品的客户很可能会同时购买其他两种产品。这降低了一种产品的价格,但增加了其他产品的价格。销售商品也是超市获利的好方法。

  五、结束语

  本文介绍了数据挖掘的概念,重点介绍了关联规则的相关内容,并通过一个具体的例子来演示如何使用 Clementine 软件建立关联关系。例子虽然比较简单,但可以充分说明数据挖掘在实际生产和销售中的重要性。除了关联关系,数据挖掘还可以做引导分类、非引导聚类等问题。

  参考:

  [1] 理查德 J 罗伊格,迈克尔 W 盖茨。翁敬农译. 数据挖掘教程[M].清华大学出版社,2000.

  [2] 王斌辉. 数据挖掘技术及其应用现状[J]. 统计与决策,2006 年,(5).

  [3] 邓尚敏. Clementine在电子商务环境中的数据挖掘应用[J].

  情报分析与研究,2007,(10).

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线