卢塞恩。如何构建术语-文档矩阵

发布于 2024-10-13 03:58:04 字数 263 浏览 6 评论 0原文


我需要构建该矩阵,但我找不到计算每个单元格标准化 tf-idf 的方法。 我要执行的标准化是除 tf-idf 的余弦标准化(使用 DefaultSimilarity )每 1/sqrt(列中的 sumOfSquaredtf-idf)。

有谁知道执行此操作的方法吗?
提前致谢
安东尼奥

I need to build that matrix but I can't find a way to compute normalized tf-idf for each cell.
The normalization I would perform is cosine-normalization that is divide tf-idf (computed using DefaultSimilarity ) per 1/sqrt(sumOfSquaredtf-idf in the column).

Does anyone know a way to perform that?
Thanks in advance
Antonio

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(1

Sujit Pal 的博客。或者,您可以构建一个每个字段都有术语向量的 Lucene 索引,迭代术语以获取 idf,然后迭代术语的文档以获取 tf。

One way, not using Lucene, is described in Sujit Pal's blog. Alternatively, you can build a Lucene index that has term vectors per field, iterate over terms to get idf, then iterate over term's documents to get tf.

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文