Apriori 算法详解

发布于 2024-08-24 13:58:06 字数 1127 浏览 8 评论 0

关联规则是从数据背后发现事物之间可能存在的关联或者联系然后通过支持度和信任度分别满足用户给定阈值的规则。Apriori 算法是一种挖掘关联规则的频繁项集算法,它的一个经典案例就是 啤酒和尿布。

一、基本概念

对于 A->B
支持度 : P(A ∩ B) ,既有 A 又有 B 的概率
置信度 :
P(B|A) ,在 A 发生的事件中同时发生 B 的概率
p(AB)/P(A) 例如购物篮分析:啤酒 ⇒ 尿布
例子: [支持度:3%,置信度:40%]
支持度 3% :意味着 3% 顾客同时购买啤酒和尿布
置信度 40% :意味着购买啤酒的顾客 40% 也购买尿布

二、Apriori 定律

Apriori 定律:如果一个集合是频繁项集,则它的所有子集都是频繁项集。举例:假设一个集合 {A,B} 是频繁项集,即 AB 同时出现在一条记录的次数大于等于最小支持度 min_support,则它的子集 {A},{B} 出现次数必定大于等于 min_support ,即它的子集都是频繁项集。

三、实现步骤

Apriori 使用一种称作逐层搜索的迭代方法, K-1 项集 用于搜索 K 项集
首先跟进用户设置的支持度阀值,找出频繁 1 项集 的集合,该集合记作 L1。L1 用于找频繁 2 项集 的集合 L2,而 L2 用于找 L3。如此下去,直到不能找到 K 项集 。找每个 Lk 都需要一次数据库扫描。如下图:

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。
列表为空,暂无数据

关于作者

‘画卷フ

暂无简介

0 文章
0 评论
22 人气
更多

推荐作者

我们的影子

文章 0 评论 0

素年丶

文章 0 评论 0

南笙

文章 0 评论 0

18215568913

文章 0 评论 0

qq_xk7Ean

文章 0 评论 0

    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文