当前位置：文江博客话题详情

用于产品数据分析的最佳 Python 聚类库

发布于 2024-10-17 08:38:15 字数 1539 浏览 5 评论 0原文

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

绿光 2024-10-24 08:38:15

你所拥有的是一个二分图。作为初始尝试，听起来您将把邻居列表视为零一向量，在它们之间定义某种相似性/相关性。例如，这可以是标准化的汉明距离。根据您采取的方式，您将获得单个域上的图表 - 产品代码或所有者。很快就会明白为什么我用图表语言来表达所有内容，请耐心等待。那么为什么你坚持使用 Python 实现呢？对大规模数据进行聚类非常消耗时间和内存。为了揭开谜底，我编写并仍在维护一种图聚类算法，该算法在生物信息学中广泛使用。它是线程化的，接受加权图，并已用于具有数百万个节点和数十亿条边的图。请参阅 http://micans.org/mcl/ 了解更多信息。当然，如果您搜索 stackoverflow 和 stackexchange，您可能会感兴趣很多线程。我也推荐 Louvain 方法，只是我不确定它是否接受您可能会生成的加权网络。

回复收藏 0 原文

温馨耳语 2024-10-24 08:38:15

R语言有很多用于在数据中查找组的包，还有python与 R 的绑定，称为 RPy。 R 提供了这里已经提到的几种算法，并且还以在大型数据集上的良好性能而闻名。

回复收藏 0 原文

无戏配角 2024-10-24 08:38:15

我认为你可以使用 pycluster 来改变你的问题的算法

我也认为你最好看看这个http://www.dennogumi.org/2007/11/data-clustering-with-python

回复收藏 0 原文

━╋う一瞬間旳綻放 2024-10-24 08:38:15

我对你的问题域不太了解。但 PyCluster 是相当不错的聚类包，它在大型数据集上运行良好：
http://bonsai.hgc.jp/~mdehoon/software/cluster/software .htm

希望有帮助。

回复收藏 0 原文

谁对谁错谁最难过 2024-10-24 08:38:15

您可以尝试使用 k-means 聚类算法及其 scipy 实现进行聚类scikits.learn.cluster.KMeans。

回复收藏 0 原文

澜川若宁 2024-10-24 08:38:15

抱歉，我不知道有现成的库。有用于全文搜索和相似性的大型库，
但对于位集，你必须自己推出（据我所知）。
无论如何，有几个建议：

位集方法：首先在内存中获取 10k 个所有者 x 100k 个产品，或 100k x 10k 个，以供使用。
您可以使用位数组制作一个 10k x 100k 位的大数组。
但是，你想用它做什么？
要在 N 个对象（所有者或产品）中查找相似对，
你必须查看所有 N*(N-1)/2 对，这很多；
或者，数据中必须存在某种允许早期修剪/分层相似性的结构；
或者，谷歌“贪婪聚类”Python - 没有看到现成的库。
您如何定义所有者/产品的“相似性”？有很多可能性 - 共同的数字、共同的比率、tf-idf ...

（补充）：你看过 Mahout 的推荐系统 API 了吗？
这就是您要找的吗？
这个所以问题
说没有 Python 等效项，这留下了两个选择：
a) 询问是否有人使用过 Jython 的 Mahout，
或者 b) 如果你不能舔他们，那就加入他们。

回复收藏 0 原文

~没有更多了~

关于作者

深巷少女

暂无简介

0 文章

0 评论

382 人气

关注发私信

友情链接

文江博客

用于产品数据分析的最佳 Python 聚类库

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（6）

关于作者

相关话题

热门标签

推荐作者

书间行客

我ぃ本無心為│何有愛

神妖

undefined

38169838

彡翼

友情链接

用于产品数据分析的最佳 Python 聚类库

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（6）

关于作者

相关话题

热门标签

推荐作者

书间行客

我ぃ本無心為│何有愛

神妖

undefined

38169838

彡翼

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。