有什么方法可以优化数据挖掘的Apriori算法吗?

发布于 2024-09-28 14:38:43 字数 35 浏览 6 评论 0原文

我正在挖掘一些数据。 我想节省时间。 那么有什么方法吗?

I am mining some data.
I want to save time.
So any method?

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(2

美羊羊 2024-10-05 14:38:43

如果你正在挖掘数据并且想要节省时间,你应该考虑使用 FPGrowth 而不是尝试优化 Apriori。

即使你优化了 Apriori,它也不会像 FPGrowth 的良好实现那么快。

Apriori 很重要,因为它是第一个用于频繁项集挖掘和关联挖掘的算法。但现在有一些更有效的算法。

If you are mining data and you want to save time, you should consider using FPGrowth instead of trying to optimize Apriori.

Even if you optimize Apriori, it will not be as fast as a good implementation of FPGrowth.

Apriori is important because it is the first algorithm for frequent itemset mining and association mining. But there are some much more efficient algorithm, now.

酒浓于脸红 2024-10-05 14:38:43
  1. 使用正确的编程语言(例如:使用 VB 可能会带来灾难性的后果)

  2. 制定您需要的信息并相应地编写您的程序

  3. 减少数据库大小或根据您的需要准备数据库

  4. 超级计算机(是的,硬件确实很重要,开玩笑,您需要一台好的计算机,特别是用于非常大的数据集)

  5. 通过以下方式改进 Apriori 算法本身:

    •基于哈希的项集计数:对应的哈希桶计数低于阈值的 k 项集不可能是频繁的。
    •事务减少:不包含任何频繁k项集的事务在后续扫描中是无用的。
    •分区:任何在数据库中潜在频繁的项集必须在数据库的至少一个分区中是频繁的。
    •采样:挖掘给定数据的子集,降低支持阈值+确定完整性的方法。
    •动态项集计数:仅当所有子集都被估计为频繁时才添加新的候选项集。

  1. Using correct programing language (EX: using VB can be disastrous)

  2. Formulate what information you need and code your program accordingly

  3. reduce database size or prepare your database according to your need

  4. SUPER COMPUTER (yes hardware does matter, joking aside you need a good computer esp for a very large dataset)

  5. Improve Apriori algorithm itself by :

    •Hash-based itemset counting: A k-itemset whose corresponding hashing bucket count is below the threshold cannot be frequent.
    •Transaction reduction: A transaction that does not contain any frequent k-itemsetis useless in subsequent scans.
    •Partitioning:Any itemset that is potentially frequent in DB must be frequent in at least one of the partitions of DB.
    •Sampling: mining on a subset of given data, lower support threshold + a method to determine the completeness.
    •Dynamic itemset counting: add new candidate itemsets only when all of their subsets are estimated to be frequent.

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文