使用稀疏表示的 nltk.cluster

发布于 2024-10-18 05:38:42 字数 342 浏览 4 评论 0原文

我对 Python 还很陌生。

我正在尝试使用 nltk.cluster 包将简单的 kMeans 应用于单词文档矩阵。虽然当矩阵是类似 numpy 数组的对象列表时它可以工作,但我无法使其适用于稀疏矩阵表示(例如 csc_matrix、csr_matrix 或 lil_matrix)。

我找到的所有信息是:

请注意,向量必须使用 numpy 类似数组的对象。 nltk_contrib.unimelb.tacohn.SparseArrays 可在需要时用于提高效率

我不明白这意味着什么。有人可以在这件事上帮助我吗?

提前致谢!

I am quite new in Python.

I am trying to use the nltk.cluster package to apply a simple kMeans to a word-document matrix. While it works when the matrix is a list of numpy array-like objects, I wasn't able to make it work for a sparse matrix representation (such as csc_matrix, csr_matrix or lil_matrix).

All the information that I found was:

Note that the vectors must use numpy array-like objects. nltk_contrib.unimelb.tacohn.SparseArrays may be used for efficiency when required

I do not understand what this means. Can anyone help me in this matter?

Thanks in advance!

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(1

旧夏天 2024-10-25 05:38:42

这意味着当您传入输入向量时,您可以传入 numpy.array() 或 nltk_contrib.unimelb.tacohn.SparseArrays。

我建议您查看包 nltk_contrib.unimelb.tacohn 来查找 SparseArrays 类。然后尝试使用此类创建数据,然后将其传递到 nltk.cluster

It means that when you pass in the input vector, you can either pass in a numpy.array() or a nltk_contrib.unimelb.tacohn.SparseArrays.

I suggest you look at the package nltk_contrib.unimelb.tacohn to find the SparseArrays class. Then try to create your data with this class before passing it into nltk.cluster

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文