当前位置：文江博客话题详情

design-patterns data-mining similarity

检测n个文本文档中的相似词

发布于 2024-08-25 18:29:55 字数 209 浏览 5 评论 0 原文

我有n个文档，想要找到这些文档中包含的常用单词。例如我想说 (n-3) 个文档包含单词“web”。

当然，我可以通过基本数据结构来做到这一点，但也许有有效的算法或一种方法来处理具有不同后缀的相同单词。有没有用于此类目的的算法？

我对数据挖掘世界不熟悉。一般来说，是否有一个术语用于寻找不同文档之间的相似性？如果有的话我会很容易地进行我的研究。

谢谢。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

猫卆 2024-09-01 18:29:55

我想您正在谈论词干提取。如果您想使用 R 语言，则必须使用 tm包。

如果没有，我只能建议这个文本挖掘工具列表

回复收藏 0 原文

把人绕傻吧 2024-09-01 18:29:55

您可以通过生成一个包含每个文档计数的单词列表、按字母顺序对单词列表进行排序并比较两个列表来完成此操作。这是 O(nlgn)。

另一种方法是使用您选择的数据库提供的全文搜索。

回复收藏 0 原文

~没有更多了~

关于作者

我ぃ本無心為│何有愛

暂无简介

0 文章

0 评论

22 人气

关注发私信

1CH1MKgiKxn9p

文章 0 评论 0

关注

ゞ记忆︶ㄣ

文章 0 评论 0

关注

JackDx

文章 0 评论 0

关注

信远

文章 0 评论 0

关注

yaoduoduo1995

文章 0 评论 0

关注

霞映澄塘

文章 0 评论 0

友情链接

文江博客

检测n个文本文档中的相似词

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（2）

关于作者

相关话题

热门标签