当前位置：文江博客话题详情

获取标题java库中的重要单词

发布于 2024-12-29 13:05:39 字数 77 浏览 0 评论 0原文

是否有任何java库可以通过给定的文本（标题）获取其中重要单词的集合。
编辑：我所说的重要是指定义了句子的主要思想的那个。谢谢。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

谈下烟灰 2025-01-05 13:05:39

您可能想看看 Apache Mahout。

您可能还想阅读有关 tf-idf 模型的更多信息，该模型通常是用于与您描述的情况类似的情况。

编辑：有关 Tf-Idf 模型的更多信息：

tf-idf 模型基本上说明了两件事：

如果某个术语在数据中出现多次，则它可能很重要。 [tf]
如果一个术语在世界上出现多次，则预期它会出现在您的数据中 - 但是，如果它很少出现 - 并且它出现在您的数据中 - 则表明它非常“重要” [idf

] tf-idf 模型利用此假设并根据 tf,idf 值给出每个术语的评级。

要查找 idf 值，您可能需要对集合建立索引或使用某些搜索引擎 API，并根据结果数量估计每个术语的常见程度 [请注意，引擎返回的数字并不准确，但它可以用作粗略估计]

回复收藏 0 原文

以为你会在 2025-01-05 13:05:39

主题模型尝试对文档（或文档集合）执行此操作。我怀疑你能用单个句子做很多事情。

您可以尝试使用语义解析器（例如 RelEx）来尝试获取主要主题/对象/等等，但它仍然不是那么简单。

您正在尝试做的一些例子会有所帮助。 “定义主要思想”仍然相当模糊 - 您正在处理什么类型的句子？

回复收藏 0 原文

玻璃人 2025-01-05 13:05:39

考虑到您只使用标题，我可以想象几乎任何不是的单词停止词很重要。

也许您只是在寻找基本的停用词删除算法，而不是完整的文本分析算法？

只是取决于你需要这个东西有多复杂或“智能”。

回复收藏 0 原文

~没有更多了~

关于作者

心的位置

暂无简介

文章

25 人气

关注发私信

佚名

文章 0 评论 0

关注

羁客

文章 0 评论 0

关注

天天爱笑的徐老师

文章 0 评论 0

关注

星

文章 0 评论 0

关注

夏日落

文章 0 评论 0

关注

隐诗

文章 0 评论 0

友情链接

文江博客

获取标题java库中的重要单词

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（3）

关于作者

相关话题

热门标签

推荐作者

佚名

羁客

天天爱笑的徐老师

星

夏日落

隐诗

友情链接

获取标题java库中的重要单词

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（3）

关于作者

相关话题

热门标签

推荐作者

佚名

羁客

天天爱笑的徐老师

星

夏日落

隐诗

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。