直观:商品关联度分析powerbi
优采云 发布时间: 2022-10-13 04:13直观:商品关联度分析powerbi
不管你是不是从事数据分析的,相信你都应该听过啤酒纸尿裤的故事。据说,美国沃尔玛超市的经理们在分析销售数据时发现了一个难以理解的现象:“啤酒”和“尿布湿”这两个看似无关的物品,往往最终会放在同一个篮子里。经过后续调查,他们发现这种现象多发生在年轻的父亲身上。
原来,在有宝宝的美国家庭中,通常是妈妈在家照顾宝宝,而年轻的爸爸则去超市买湿尿布。爸爸在买尿不湿的时候,经常给自己买啤酒,这就导致了啤酒和尿不湿这两个看似无关的物品,经常被放在同一个购物篮里的现象。沃尔玛发现了这个独特的现象,开始尝试将啤酒和纸尿裤放在店内同一个区域,让年轻爸爸们可以同时找到两种产品,快速完成购物,销售效果明显. 1993年,美国学者Agrawal分析了购物篮中的商品集合,找出了商品之间关系的算法,并根据商品之间的关系,了解客户的购买行为。他从数学和计算机算法的角度,提出了商品相关性的计算方法,也就是接下来要讨论的Aprior算法。
沃尔玛尝到了甜头,后来发现了一个现象。每当季节性飓风来临时,蛋挞的销量也随之增加,所以每当季节性飓风来临时,沃尔玛就会将蛋挞和飓风物资放在一起,以增加销量。.
同样,美国第二大超市塔吉特也遭到一位父亲的抗议,他说女儿还在读高中,超市却给她邮寄母婴用品。超市经理连忙道歉,平息了父亲的怒火。没想到,一个月后,父亲来到超市道歉,称女儿确实怀孕了。超市怎么会在父亲之前知道女儿怀孕?原来,Target 从公司的订单数据仓库中挖掘了 25 个与怀孕高度相关的项目,创建了一个“怀孕预测”指数。例如,他们发现女性在怀孕第四个月左右大量购买无味乳液。在此基础上计算到期日后,
这就是大数据的力量。当数据量足够大时,具有统计意义,发现群体行为的规律性。事实上,并不是你的隐私被窥探,而是你恰好是目标群体的一部分,而不是你将成为其他人。
小视频现在很流行,不知道大家有没有意识到,抖音很懂你,总是推你喜欢的东西。这是在幕后工作的推荐算法。如果是你,如果你被要求向你的朋友推荐购买,你会怎么做?第一种方法是观察他喜欢买什么,这些东西有什么共同特点,然后你推荐你有的同类产品,这叫做基于物品的协同过滤(Collaborative Filtering);第二种方法,你看他玩几个好朋友买的东西,找出类似的产品推荐给他,这叫做基于用户的协同过滤。那么还有什么可做的呢?这就是接下来要讨论的关联规则。通过关联规则,您可以找到不一定与相似或功能相关的产品相关的产品组合,从而增加销售额。这是一个简单易懂的算法,实现起来很复杂。我说的时候你明白,但你做的时候不一定。
1.什么是关联规则
关联规则算法源于对购物单据(也称为购物篮)数据记录的挖掘,所以现在常被称为购物篮分析,由于它研究的是商品之间的关系,所以也被称为商品关联分析。这三个实际上是一个意思。但是有很多 BI 分析师要么故意简化它,要么错误地使用它。例如用法1:计算同时购买产品A和B的订单数占订单总数的比例,称为支持;计算同时购买产品A和B的订单数与单独购买产品A的订单数的比值,称为置信度;计算 ” 但不完全正确。因为这只是关联规则中频繁项集的情况,改进程度不是一个稳定的指标,会出现实际问题。用法2:求同时购买商品A的订单数量m,购买商品B的订单数量,同时购买商品A和B的订单数量。排名最高的是最佳组合。这种用法也有他的道理,但与关联规则无关。但不完全正确。因为这只是关联规则中频繁项集的情况,改进程度不是一个稳定的指标,会出现实际问题。用法2:求同时购买商品A的订单数量m,购买商品B的订单数量,同时购买商品A和B的订单数量。排名最高的是最佳组合。这种用法也有他的道理,但与关联规则无关。以及同时购买商品A和B的订单数量。排名最高的是最佳组合。这种用法也有他的道理,但与关联规则无关。以及同时购买商品A和B的订单数量。排名最高的是最佳组合。这种用法也有他的道理,但与关联规则无关。
究竟什么是关联规则?或者用一个例子来详细说明。
下面是十张购物小票(Receipt,简写R),每个RID代表一张收据,后面是客户购买的商品记录在收据上。我们的目标是如何找到产品和产品的最佳组合以增加两者的销售额。
关联规则算法是如何解决的?
第一步是找到出现在上述所有订单中的产品,以及它们的所有组合。
第二步是计算这些组合的支持度和置信度,称为支持度-置信度框架,或关联规则。
第三步,衡量计算得到的每个组合的支持度和置信度,即计算改进度。根据支持、信心和改进,该组合是一个很好的产品组合。
过程简单吗?其实还没有结束。
我们真的需要第一步的所有商品组合吗?不。有些产品组合几乎没有或很少,我们需要排除它们。这里排除的方式是最小支撑。(另一个是最小置信度,但是对产品组合没有影响,影响规则,也就是最终计算出关联规则的结果,由我们决定是否使用。最小支持度度影响产品组合,先把这句话放在这里,到最后你就明白了)。这两个最小值不是固定的,而是由操作专家根据操作观察经验确定的。
第二步,衡量组合的质量。这是改进的程度。可以看到,百度搜索中几乎所有的答案都使用了提升度,但是这个度量的缺陷其实都被忽略了。合理的测量标准其实就是KULC测量+不平衡比(IR)这两个指标一起使用。
第三步,一般来说,三者越高越好。事实上,这是一个非常笼统的说法。人类可以更好地判断,但机器如何更好地判断?一定要有标准!不幸的是,这是该算法的缺陷。它是一种用于知识发现的无监督机器学习方法,不是预测或验证,也没有办法评估其结果,只能通过业务观察来判断是否合理。但是这个算法在实践中效果很好,总比什么都不做要好,对吧?
接下来,我用这个例子一步步讲解算法的实际计算过程。该算法是由 Agrawal、Imielinski 和 Swami 在 1993 年的 SIGMOD 会议上提出的。有很多晦涩的术语,我们尝试用通俗的术语来介绍它们。
2.关联规则相关概念
1、交易:每张小票称为一次交易;
2. 交易集:所有的票都称为交易集;
3、交易次数称为S,其中S=10;
4、物品:每件商品称为物品(item),简称物品;
5.项集:商品的每一个组合(本身也是一个组合)称为一个项集;
6. 项集支持:项集的出现次数除以总交易次数,如{milk, beer}项集的支持为:
支持({牛奶,啤酒})= 4/10
(牛奶和啤酒同时出现4次)
从定义也可以看出,一个项目集的支持度其实就是这个项目集出现的概率,牛奶和啤酒同时出现的概率是4/10。
7、关联规则:人为定义的项集中有一条关联规则R:A>B,即从A到B有一定的规则R;
8、规则R的支持度:交易集合中同时收录A和B的交易数量与所有交易S的数量之比。例如,从啤酒到牛奶的规则的支持度为:
支持(啤酒=>牛奶)=4/10
(牛奶和啤酒的共现次数为4,总交易次数为S)
如果该规则的支持度较高,则说明该规则的概率较高,可能是一个有用的规则。
9. 规则R的置信度:项集{A,B}的支持度与项集{A}的支持度的比值,例如,从啤酒到牛奶的规则的置信度为:
信心(啤酒 => 牛奶)= 4/7
(牛奶和啤酒共现4次,项集{A,B}的支持度为4/10;啤酒出现的次数为7,啤酒的支持度为7/10)
置信度的显着性是项集{A,B}同时出现与项集{A}出现次数的比例,即在A出现的条件下B出现的概率(条件概率),即是规则 R. 可信度的度量。如果比较高,则说明很有可能先买A再买B。
10. 规则R的提升度:项目集{A,B}的规则R的置信度与项目集{B}的支持度的比值,例如规则从beer到牛奶是:
电梯(啤酒=>牛奶)=(4/7)/(6/10)=4/42
(为了方便,这里没有简化。项目集{A,B}的规则R的置信度是4/7,项目集{B}的支持度是6/10)
规则提升度的意义在于衡量项目集{A}和项目集{B}的独立性。具体含义后面会讲,也就是核心。
有了这些概念,就可以理解这个过程。
三、关联规则的实现步骤
第一步是找到已经被最低支持度过滤的产品组合(即不需要那些低于最低支持度的产品)。这里我设置最小支持为0.1,只要小于等于0.1就排除。
这里的10张收据收录的产品有啤酒、*敏*感*词*、方便面、牛奶、水果刀、香蕉、鸡蛋、麻辣条、酱油、纸巾10种(这10种都是偶然的)。
收录 1 项的称为频繁 1 项集,它们的支持度很容易计算,只需逐个统计事务数即可:
上图显示所有事务扫描一次(这是第一次扫描所有数据),其中收录频繁1项集的计数,然后计算支持度,0.1以下的排除,结果获得第 1 组。
收录 2 项的称为频繁 2 项集,它们的支持度也很容易计算。继续数:
或者扫描所有事务一次(这是对所有数据的第二次扫描,包括频繁2项集的计数,然后计算支持度,并排除低于0.1的那些得到结果集2。但是在这里你发现每两个项只有10*10=100个组合。如果你找到频繁3项集,频繁4项集...频繁10项集,总数将是2025。这只有10项。如果有数千个项目,计算量会很大。很大。虽然最后每个过滤后的结果集都很小,但是这个过程需要很大的计算量,怎么办?
先验算法
这导致了 Apriori 算法。Apriori 算法利用称为先验属性的重要属性。这件事没有任何理由,就像定理一样,我们可以使用它。
该属性的内容是:频繁项集的所有非空子集也必须是频繁的。相反,如果排除了这个频繁项集,则需要排除它的子集。
因此,在使用 Apriori 算法对数据进行第二次扫描时,结合第一次扫描排除的频繁项集的信息,直接排除其子集。如下所示。这大大减少了过程的计算工作量。*敏*感*词*表示从第一次扫描中排除的项目。
它的巧妙之处在于排除了第二次扫描的过程,而不是所有组合然后排除。这里的效果并不明显。第三次扫描计算频繁3项集时,如果直接排除2中排除的项集,会发现计算量比之前的方法少很多。事实上,这并不是最好的方法。FP-growth算法不需要生成候选集,而是直接构造可用的频繁项集,速度更快。有兴趣的可以自行搜索。
当我们继续搜索频繁的 3 项集时,我们发现没有满足条件的结果。所以我们为这个数据集找到的所有频繁项集如下(只有所有频繁2项集):
第二步是计算支持度、置信度和提升度。这里我还介绍了两个度量,KULC 度量和 IR 不平衡率。
各个指标计算的结果看的很清楚。虽然从啤酒到牛奶的支持度和置信度都比较高,但是它的提升度小于1。上面提到的算法是项集{A,B}的规则R的置信度与项集{B的支持度的比值},实际上是:
电梯(啤酒=>牛奶) = (P(A∩B)/P(A))/P(B)
= P(A∩B)/P(A)P(B)
这不是条件概率吗?如果P(A∩B)/P(A)P(B)=1,则表示事件A的发生和事件B的发生是独立的。如果电梯
既然lift已经很管用了,为什么还要推荐KULC和IR不平衡率这两个度量呢?因为只有 10 件商品和 10 个运单号,在真实的商业环境中,会出现大量既不购买上述 A 也不购买 B 的客户,这称为零交易,零交易的数量很容易导致一种提升。计算方式的改变,以及项目集 A 的支持度与项目集 B 的支持度差距较大,也会导致提升度不能很好地衡量关联规则的强弱。引入的两个是如何定义和计算的?
KULC 指标:
0.5\*(P(B|A)+P(A|B))
它可以看作是两个置信水平的平均值。
IR不平衡率:
KULC metric 越大越好,IR 不平衡率越小越好。两者结合可以比单独使用Lift更好地找到强关联规则。
这就是关联规则的全部内容。本文讲的是关联规则的理论,下一部分将使用PowerBI和Python进行实际应用和演示。
总结:百度关键字优化(百度关键字优化难度分析)
Mark Vendors如何优化百度的SEO?对于很多朋友来说,它一直很期待。今天小编江泽给小伙伴们做了一个简单的整理和列举,希望对小伙伴们有所帮助,在接下来的时间里灵活运用到自己的行业中,创造更高的商业价值!
随着互联网时代的快速发展,企业宣传的方式也越来越多样化,企业网站已经成为企业在互联网上进行宣传的重要方式之一。由于互联网庞大的用户群,搜索引擎自然而然成为许多企业进行互联网营销的核心手段。当用户想知道某事时,他们会在互联网上寻找答案。这时候,很多网友都在通过搜索引擎来实现。企业只要做好网站推广,将网站关键词优化到搜索引擎首页,就可以扩大企业在互联网上的宣传范围,让更多的用户通过互联网了解企业,获得更多的转化和收益。所以,
织唛商标厂家对接百度SEO优化 织唛商标厂家优化百度SEO
1. 关键词挖掘和过滤
想要在网站有织标的企业中获得良好的关键词排名,就必须知道如何选择关键词。如果这一步做得不好,以后的一切努力都将是白费。如果你选错了,你的努力就会白费。因此,选择关键词是一个非常重要的环节。关键词是否合理直接影响我公司网站的推广效果。因此,在选择 关键词 时再次谨慎。个人建议小伙伴可以用自己好的方式操作,比如市场调研、头脑风暴、下拉框、相关搜索、同行关键词、关键词挖掘SEO工具等。边小江泽一般会选择2-3种方式来完成,选择适合自己业务的关键词网站。
不管选择哪种方式获取自己的网站的关键词,一定要记得打分,方便后面的关键词布局。不要弄得太乱,后续会浪费时间,还可能放错地方再折腾,不合适。当网站关键词确定后,选中的关键词需要在整个网站中布局。一般我们将企业网站分为首页、栏目页、产品页、文章页、其他页面等。关键词在网站首页,goal关键词在栏目页面和导航栏页面布局,长尾关键词在产品页面和文章页面布局. 其他页面是根据它们的内容布局的(只是匹配),所以我不希望它们排名。
织唛商标厂家对接百度SEO优化 织唛商标厂家优化百度SEO
2. 撰写优质内容。
在做网站关键词优化的时候,按内容排名是很多朋友的想法,边小江泽也觉得缺一不可!在给马智商标企业的网站添加内容的时候,小编江泽建议朋友们不要采集其他同事网站的内容,或者给网站添加一些低质量、不相关的内容> 内容。这样的内容不仅无助于提升关键词的排名,反而降低了网站的整体质量。有经验的朋友应该明白江泽是什么意思吧!
在给织唛网站的企业添加内容时,可以使用微创新的方式或者自己编写相应的内容,围绕用户的需求和痛点,编写有关织唛的相关内容。你的内容可以解决客户的问题,让内容体现相应的价值。相关优质内容为王,能更好地吸引用户和搜索引擎的关注,从而为网站关键词的排名做出贡献。
织唛商标厂家对接百度SEO优化 织唛商标厂家优化百度SEO
这会给小伙*敏*感*词*行业的内容?这个是可以的,但是以后别忘了做出相应的产品推荐。不要为了写作而写作。我们还是要从营销推广入手,提高转化率,把产品卖掉是我们的目标。
这里还有一个细节要注意,就是在更新织标厂家的网站内容的时候,建议大家心里有个标准,就是有规律、有数量,这样才能保证内容的更新频率和每日网站内容的更新,从而保证网站的活跃度,有利于搜索引擎和收录的爬取。至于周期有多长,可以根据网站的阶段更新。最初,它将每两天更新一次。关键词一旦稳定,就可以保持更长时间。
相关文章