当前位置：文江博客话题详情

查找相关文本（两个文本之间的相关性）

发布于 2024-10-30 12:23:25 字数 156 浏览 13 评论 0原文

我试图通过相关性在数据库中找到类似的文章。

所以我将文本拆分为单词数组，然后删除常用单词（冠词、代词等），然后用皮尔逊系数函数比较两个文本。对于某些文本，它是有效的，但对于其他文本，它不太好（文本较大的文本具有较高的系数）。

有人可以建议一种查找相关文本的好方法吗？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

千鲤 2024-11-06 12:23:25

您提到的一些问题归结为文档长度和整体词频的标准化。尝试tf-idf。

回复收藏 0 原文

三生池水覆流年 2024-11-06 12:23:25

首先也是最重要的，您需要明确相似性的确切含义以及两个文档何时（或多或少）相似。

如果您正在寻找的相似性是字面的，那么我将使用术语频率对文档进行矢量化，并使用余弦相似性将它们相互比较，因为文本本质上是定向数据。可以根据您的用例测试 tf-idf 和 log-entropy 加权方案。对于长文本，编辑距离效率低下。

如果您更关心语义，那么词嵌入是您的盟友。

回复收藏 0 原文

~没有更多了~

关于作者

狼性发作

暂无简介

文章

29 人气

关注发私信

5040234068

文章 0 评论 0

关注

樱花雨梦

文章 0 评论 0

关注

≈。彩虹

文章 0 评论 0

关注

雨轻弹

文章 0 评论 0

关注

血之狂魔

文章 0 评论 0

关注

qq_0bIjwE

文章 0 评论 0

友情链接

文江博客

查找相关文本（两个文本之间的相关性）

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（2）

关于作者

相关话题

热门标签

推荐作者

5040234068

樱花雨梦

≈。彩虹

雨轻弹

血之狂魔

qq_0bIjwE

友情链接

查找相关文本（两个文本之间的相关性）

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（2）

关于作者

相关话题

热门标签

推荐作者

5040234068

樱花雨梦

≈。彩虹

雨轻弹

血之狂魔

qq_0bIjwE

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。