当前位置：文江博客话题详情

新闻项目（主题）相似度算法

发布于 2024-07-16 10:16:14 字数 245 浏览 16 评论 0原文

我想确定两个新闻项目内容的相似度，类似于 Google 新闻，但不同之处在于我希望能够确定基本主题是什么，然后确定哪些主题相关。

因此，如果一篇文章是关于萨达姆·侯赛因的，那么算法可能会推荐一些有关唐纳德·拉姆斯菲尔德在伊拉克的商业交易的内容。

如果你可以抛出像 k 最近邻这样的关键词，并解释一下它们为什么起作用（如果可以的话），我将完成其余的研究并调整算法。只是寻找一个开始的地方，因为我知道那里肯定有人以前尝试过类似的东西。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

甜是你 2024-07-23 10:16:15

第一个想法：

扔掉干扰词（还有，你，是，这个，一些......）。
计算所有其他单词并按数量排序。
对于两篇文章中的每个单词，根据数量之和（或乘积或其他公式）添加分数。
分数代表相似度。

一篇主要关于唐纳德·拉姆斯菲尔德的文章似乎会大量使用这两个词，这就是我在文章中对它们进行加权的原因。

然而，可能有一篇文章多次提到沃伦·巴菲特和一次比尔·盖茨，而另一篇文章则多次提到比尔·盖茨和微软。那里的相关性是最小的。

根据您的评论：

因此，如果一篇文章是关于萨达姆·侯赛因的，那么算法可能会推荐有关唐纳德·拉姆斯菲尔德在伊拉克的商业交易的内容。

除非萨达姆的文章也提到伊拉克（或唐纳德），否则情况不会如此。

这就是我要开始的地方，我已经可以看到理论中潜在的漏洞（如果经常提到他们的名字，一篇关于比尔·盖茨的文章将与一篇关于比尔·克林顿的文章紧密匹配）。所有其他词都可以很好地解决这一问题（一个法案是微软，另一个是希拉里）。

在尝试引入单词邻近功能之前，我可能会先对其进行测试运行，因为这会使它变得非常复杂（也许是不必要的）。

另一项可能的改进是保持“硬”关联（例如总是在涉及奥萨马·本·拉登的文章中添加“阿富汗”一词）。但同样，这需要额外的维护，因为可能存在可疑的价值，因为有关奥萨马的文章几乎肯定也会提到阿富汗。

回复收藏 0 原文

指尖微凉心微凉 2024-07-23 10:16:15

此刻我正在思考这样的事情。

每个非噪声词都是一个维度。每篇文章都由一个向量表示，其中未出现的单词用零表示，出现的单词的值等于它们出现的次数除以页面上的总单词数。然后我可以采用该空间中每个点之间的欧几里德距离来获得任意两篇文章的相似度。

下一步是确定文章的聚类，然后确定每个聚类的中心点。然后计算任意两个簇之间的欧几里得距离，从而给出主题的相似度。

啊啊我想通过输入它我解决了我自己的问题。当然，只有在非常高的水平上，我相信当我认真对待它时，我会发现问题......魔鬼总是在细节中。

但评论和改进仍然受到高度赞赏。

回复收藏 0 原文

~没有更多了~

关于作者

近箐

暂无简介

文章

26 人气

关注发私信

友情链接

文江博客

新闻项目（主题）相似度算法

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（2）

关于作者

相关话题

热门标签

推荐作者

知足的幸福

我一向站在原地

慕烟庭风

秉忠贞之诚守退让之实

小兔几

mb_3y7WUgWY

友情链接

新闻项目（主题）相似度算法

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（2）

关于作者

相关话题

热门标签

推荐作者

知足的幸福

我一向站在原地

慕烟庭风

秉忠贞之诚 守退让之实

小兔几

mb_3y7WUgWY

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

秉忠贞之诚守退让之实