文章来源于网络收集而来，版权归原创者所有，如有侵权请及时联系！

9.1 Apriori 关联规则算法

发布于 2024-01-21 22:13:25 字数 1022 浏览 0 评论 0 收藏 0

以超市销售数据为例，提取关联规则的最大困难在于当存在很多商品时，可能的商品的组合（规则的前项与后项）的数目会达到一种令人望而却步的程度。因而各种关联规则分析的算法分别从不同方面着手减小可能的搜索空间的大小以及减小扫描数据的次数。Apriori算法是最经典的挖掘频繁项集的算法，第一次实现了在大数据集上可行的关联规则提取，其核心思想是通过连接产生候选项与其支持度，然后通过剪枝生成频繁项集。

（1）关联规则的一般形式

项集A、B同时发生的概率称为关联规则的支持度（也称相对支持度）：

Support（A=>B）=P（A∩B）

项集A发生，则项集B发生的概率为关联规则的置信度：

Confidence（A=>B）=P（B|A）

（2）最小支持度和最小置信度

最小支持度是用户或专家定义地衡量支持度的一个阈值，表示项目集在统计意义上的最低重要性。最小置信度是用户或专家定义地衡量置信度的一个阈值，表示关联规则的最低可靠性。同时满足最小支持度阈值和最小置信度阈值的规则称作强规则。

（3）项集

项集是项的集合。包含k个项的项集称为k项集，如集合{牛奶，麦片，糖}是一个3项集。

项集的出现频率是所有包含项集的事务计数，又称作绝对支持度或支持度计数。如果项集I的相对支持度满足预定义的最小支持度阈值，则I是频繁项集。频繁k项集通常记作L_k 。

（4）支持度计数

项集A的支持度计数是事务数据集中包含项集A的事务个数，简称为项集的频率或计数。