文章来源于网络收集而来,版权归原创者所有,如有侵权请及时联系!
第9章 关联规则分析
关联规则反映了不同事物之间的关联性,其关系通常表现为一对一或者一对多,关联规则分析则是从事务数据库、关系数据库和其他信息存储中的大量数据的项集之间发现有趣的、频繁出现的模式、关联和相关性。更确切地说,关联规则通过量化的数字描述物品甲的出现对物品乙的出现有多大的影响。它的模式属于描述型模式,发现关联规则的算法属于无监督学习的方法。关联规则分析也是数据挖掘中最活跃的研究方法之一,广泛运用于购物篮数据、生物信息学、医疗诊断、网页挖掘和科学数据分析中。
关联规则分析又被称为购物篮分析,最早是为了发现超市销售数据库中不同的商品之间的关联关系。例如一个超市的经理想要更多地了解顾客的购物习惯,比如“哪组商品可能会在一次购物中同时购买?”或者“某顾客购买了个人电脑,那该顾客三个月后购买数码相机的概率有多大?”他可能会发现购买了面包的顾客同时非常有可能会购买牛奶,这就导出了一条关联规则“面包≥牛奶”,其中面包称为规则的前项,而牛奶称为后项。通过对面包降低售价进行促销,而适当提高牛奶的售价,关联销售出的牛奶就有可能增加超市整体的利润。还有一个最常听到的例子就是著名的“啤酒与尿布”,这个例子也许不是那么真实,但是却能很好地说明关联规则的概念。
关联规则分析是数据挖掘中最活跃的研究方法之一,目的是在一个数据集中找出各项之间的关联关系,而这种关系并没有在数据中直接表示出来。
目前,常用的关联规则分析算法如表9-1所示。
表9-1 常用关联规则算法
这几种方法里,目前在Python中实现的效果较好的为Apriori算法。本章主要重点介绍Apriori算法及其在Python中的实现。
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论