对LSA的质疑

发布于 2024-12-29 09:28:07 字数 634 浏览 1 评论 0原文

我必须找到参考文档与存储库中的文档集之间的相似性。

Method : 

1. I find the term document matrix for all the documents including the reference document 
2. The svd is calculated for this matrix 
3. I take the v array(The third result)
4. I transpose this matrix so that the each row represents a document . 
5. The first row represents the reference document . 
6. I find the cosine similarity beween this row and the rest of the rows 

我的疑问:

  1. 由于我的数据库中有大约 7 个文档,所以我只得到 8*8 varray(文档矩阵) 。那么,如果我单独找到这 8 个值的余弦相似度,我会得到正确的结果吗?

  2. 这种方法普遍采用吗?

我用java来编码这个。我使用 jama 包来查找 svd 。

I have to find the similarity between a reference document and the set of documents in a repository .

Method : 

1. I find the term document matrix for all the documents including the reference document 
2. The svd is calculated for this matrix 
3. I take the v array(The third result)
4. I transpose this matrix so that the each row represents a document . 
5. The first row represents the reference document . 
6. I find the cosine similarity beween this row and the rest of the rows 

My doubts :

  1. Since i have around 7 documents in my db , i get only 8*8 varray(document matrix) . SO will i get a correct result if i find the cosine similarity with these 8 values alone ?

  2. Is such a method adopted generally ?

I use java to code this . I make use of the jama package to find the svd .

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(1

旧情勿念 2025-01-05 09:28:07
  • 我尝试过使用 TMG 工具箱使用 Matlab。效果很好。
  • 为了获得更好的结果(或更准确),请使用更大的数据集。
  • 在LSA中,svd是其中的一部分(用于降维)。为了
    计算你的余弦
    相似度,您将需要计算后得到的最后一个矩阵
    A = U * S * V^t 。

您可以阅读 LSA 的示例 这里

  • I have tried with Matlab using TMG tool box. It works fine.
  • For better results ( or for more accuracy ) use larger data sets.
  • In LSA , svd is a part of it ( For Dimension reduction ) . For
    calculating your Cosine
    similarity, you will require the last matrix which you will get after this calculation
    A = U * S * V^t .

You can read an example of LSA Here

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文