JAVA中使用哪个NLP工具包？

发布于 2024-07-21 03:50:35 字数 349 浏览 12 评论 0原文

我正在开发一个项目，该项目包含一个连接到 NCBI（国家生物技术信息中心）并在那里搜索文章的网站。问题是我必须对所有结果进行一些文本挖掘。我使用 JAVA 语言进行文本挖掘，并使用 AJAX 和 ICEFACES 来开发网站。我有什么：从搜索返回的文章列表。每篇文章都有一个 ID 和一个摘要。这个想法是从每个抽象文本中获取关键字。然后比较所有摘要中的所有关键字，找到重复次数最多的关键字。然后在网站中显示相关的搜索词。有任何想法吗？我在网上搜索了很多，我知道有命名实体识别，词性标记，有关于基因和蛋白质的 NER 的 GENIA 同义词库，我已经尝试过词干提取...停用词列表等... 我只需要知道解决这个问题的最佳方法。多谢。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

柏拉图鍀咏恒 2024-07-28 03:50:35

我建议您使用词性标记和字符串标记的组合来从每个摘要中提取所有名词。然后使用某种字典/哈希来计算每个名词的频率，然后输出 N 个最多产的名词..将其与其他一些智能过滤机制相结合应该可以很好地为您提供摘要中的重要关键字
对于 POS 标记，请查看 POS 标记器，网址为 http://nlp.stanford.edu/software/index。 shtml

但是，如果您期望语料库中存在大量多词术语...而不是仅提取名词，您可以采用最多产的 n-grams for n=2 到 4

回复收藏 0 原文