9.1 Apriori 关联规则算法
以超市销售数据为例,提取关联规则的最大困难在于当存在很多商品时,可能的商品的组合(规则的前项与后项)的数目会达到一种令人望而却步的程度。因而各种关联规则分析的算法分别从不同方面着手减小可能的搜索空间的大小以及减小扫描数据的次数。Apriori算法是最经典的挖掘频繁项集的算法,第一次实现了在大数据集上可行的关联规则提取,其核心思想是通过连接产生候选项与其支持度,然后通过剪枝生成频繁项集。
(1)关联规则的一般形式
项集A、B同时发生的概率称为关联规则的支持度(也称相对支持度):
Support(A=>B)=P(A∩B)
项集A发生,则项集B发生的概率为关联规则的置信度:
Confidence(A=>B)=P(B|A)
(2)最小支持度和最小置信度
最小支持度是用户或专家定义地衡量支持度的一个阈值,表示项目集在统计意义上的最低重要性。最小置信度是用户或专家定义地衡量置信度的一个阈值,表示关联规则的最低可靠性。同时满足最小支持度阈值和最小置信度阈值的规则称作强规则。
(3)项集
项集是项的集合。包含k个项的项集称为k项集,如集合{牛奶,麦片,糖}是一个3项集。
项集的出现频率是所有包含项集的事务计数,又称作绝对支持度或支持度计数。如果项集I的相对支持度满足预定义的最小支持度阈值,则I是频繁项集。频繁k项集通常记作Lk 。
(4)支持度计数
项集A的支持度计数是事务数据集中包含项集A的事务个数,简称为项集的频率或计数。
已知项集的支持度计数,则规则A=>B的支持度和置信度很容易从所有事务计数、项集A和项集A∪B的支持度计数推出:
也就是说,一旦得到所有事务个数,且A、B和A∪B的支持度计数,就可以导出对应的关联规则A=>B和B=>A,并可以检查该规则是否是强规则。
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论