使用稀疏表示的 nltk.cluster
我对 Python 还很陌生。
我正在尝试使用 nltk.cluster 包将简单的 kMeans 应用于单词文档矩阵。虽然当矩阵是类似 numpy 数组的对象列表时它可以工作,但我无法使其适用于稀疏矩阵表示(例如 csc_matrix、csr_matrix 或 lil_matrix)。
我找到的所有信息是:
请注意,向量必须使用 numpy 类似数组的对象。 nltk_contrib.unimelb.tacohn.SparseArrays 可在需要时用于提高效率
我不明白这意味着什么。有人可以在这件事上帮助我吗?
提前致谢!
I am quite new in Python.
I am trying to use the nltk.cluster package to apply a simple kMeans to a word-document matrix. While it works when the matrix is a list of numpy array-like objects, I wasn't able to make it work for a sparse matrix representation (such as csc_matrix, csr_matrix or lil_matrix).
All the information that I found was:
Note that the vectors must use numpy array-like objects. nltk_contrib.unimelb.tacohn.SparseArrays may be used for efficiency when required
I do not understand what this means. Can anyone help me in this matter?
Thanks in advance!
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
这意味着当您传入输入向量时,您可以传入 numpy.array() 或 nltk_contrib.unimelb.tacohn.SparseArrays。
我建议您查看包 nltk_contrib.unimelb.tacohn 来查找 SparseArrays 类。然后尝试使用此类创建数据,然后将其传递到 nltk.cluster
It means that when you pass in the input vector, you can either pass in a numpy.array() or a nltk_contrib.unimelb.tacohn.SparseArrays.
I suggest you look at the package nltk_contrib.unimelb.tacohn to find the SparseArrays class. Then try to create your data with this class before passing it into nltk.cluster