当前位置：文江博客话题详情

纯统计引擎，还是自然语言处理引擎？

发布于 2024-11-19 13:18:30 字数 114 浏览 9 评论 0原文

有哪些统计引擎可以产生比 OpenNLP 工具套件更好的结果（如果有）？我正在寻找的是一个引擎，可以从文本中选择关键字并提供对这些动词和词干的提取。名词，也许自然语言处理不是这里的出路。该引擎还应该支持不同的语言。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

终难愈 2024-11-26 13:18:30

您可能正在寻找 Snowball 项目，该项目为多种不同语言开发了词干分析器。

回复收藏 0 原文

失与倦＂ 2024-11-26 13:18:30

作为完整的 NLP 工具，LingPipe 可能值得一看。

但是，如果您需要做的只是找到动词和名词并提取它们的词干，那么您可以
1) 标记文本
2) 运行 POS 标记器
3）运行词干分析器

我相信斯坦福大学的工具可以对多种语言执行此操作，NLTK 将是一种快速尝试的方法。

但是，您要小心，不要只关注动词和名词 - 您如何处理名词短语和多词名词？理想情况下，nlp 包可以处理这个问题，但这很大程度上取决于您正在工作的领域。不幸的是，很多 NLP 取决于您的数据有多好。

回复收藏 0 原文

后来的我们 2024-11-26 13:18:30

如果您正在寻找 Java 代码，我可以推荐斯坦福大学的工具集。他们的词性标注器适用于英语、德语、中文和阿拉伯语（尽管我只用它来英语）并包括（仅限英语）词形还原器。

这些工具都是免费的，准确性相当高，而且速度对于基于 Java 的解决方案来说也不算太差；主要问题有时是不稳定的 API 和高内存使用率。

回复收藏 0 原文

蓝海似她心 2024-11-26 13:18:30

我对 TreeTagger 有很好的经验：

http://www.ims.uni-stuttgart .de/projekte/corplex/TreeTagger/

它很容易使用，比斯坦福大学的更快，并且属于“优秀”的词干分析器/标记器。它同时执行所有操作：标记化/词干提取/标记。

回复收藏 0 原文

~没有更多了~

关于作者

执笏见

暂无简介

文章

25 人气

关注发私信

燃烧我的卡路李先生

文章 0 评论 0

关注

qq_2gSKZM

文章 0 评论 0

关注

∞梦里开花

文章 0 评论 0

关注

qq_IklFPL

文章 0 评论 0

关注

迷途知返

文章 0 评论 0

关注

深海不蓝

文章 0 评论 0

友情链接

文江博客

纯统计引擎，还是自然语言处理引擎？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（4）

关于作者

相关话题

热门标签