当前位置：文江博客话题详情

Java 开源文本挖掘框架

发布于 2024-08-21 22:25:34 字数 102 浏览 5 评论 0原文

我想知道什么是最好的基于 Java 的开源文本挖掘框架，以使用 botg 机器学习和字典方法。

我正在使用 Mallet，但没有那么多文档，我不知道它是否能满足我的所有要求。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

毁梦 2024-08-28 22:25:34

老实说，我认为这里提出的几个答案都非常好。但是，为了满足我的要求，我选择使用 Apache UIMA 和 ClearTK。它支持多种机器学习方法，并且我没有任何许可证问题。另外，我可以为其他 ML 方法制作包装器，并且我利用 UIMA 框架的优势，该框架组织良好且速度很快。

谢谢大家的有趣回答。

此致，
乌克兰

回复收藏 0 原文

尛丟丟 2024-08-28 22:25:34

虽然不是专门的文本挖掘框架，但 Weka 通常有许多分类器用于文本挖掘任务，例如：SVM、kNN、多项式 NaiveBayes 等。

它还具有一些可处理文本数据的过滤器，例如可以执行 TF/IDF 转换的 StringToWordVector 过滤器。

请访问 Weka wiki 网站了解更多信息。

回复收藏 0 原文

病毒体 2024-08-28 22:25:34

也许看看 Java Open Source NLP 和文本挖掘工具。

回复收藏 0 原文

幼儿园老大 2024-08-28 22:25:34

我使用过LingPipe——一套Java用于人类语言的语言分析的库——用于文本挖掘（和其他相关）任务。

它是一个非常文档齐全的软件包，并且该站点包含多个教程，详细解释了如何使用 LingPipe 执行特定任务，例如命名实体识别。还有一个新闻组，您可以在其中发布有关该软件（或 NLP 相关任务）的任何问题，并得到软件包作者本人的及时回复；当然，还有博客。

源代码也非常容易理解并且有很好的文档记录，这对我来说始终是一个很大的优势。

至于机器学习算法，有很多，从朴素贝叶斯到条件随机场。另一方面，对于字典匹配算法，它们有一个 ExactDicitonaryChunker，它是 Aho-Corasich 算法（用于此任务的非常非常快的算法）的实现。

总而言之，我认为它是最好的 Java NLP 软件包之一（我没有使用过所有的软件包，所以我不能说它是最好的），并且我绝对推荐它用于以下任务：你手头有。

回复收藏 0 原文

网名女生简单气质 2024-08-28 22:25:34

您可能已经了解 GATE：http://gate.ac.uk/

...但这就是什么我们（在我的日常工作中）已经使用它来解决许多不同的文本挖掘问题。它非常灵活和开放。

回复收藏 0 原文

暖伴 2024-08-28 22:25:34

我使用 OpenNLP MaxEnt http://sourceforge.net/projects/maxent 为 CoNLL 数据构建了最大熵命名实体识别器/ 一次课程。

不过，需要使用自定义 Perl 脚本进行大量数据预处理，确实可以将所有特征提取到漂亮整洁的数值向量中。

回复收藏 0 原文

一刻暧昧 2024-08-28 22:25:34

我们使用 lucene 来处理来自互联网的实时流。它有一个原生的java api。

http://lucene.apache.org/java/docs/

然后你可以使用 mahout这是一堆在 lucene 之上运行的机器学习算法。

http://lucene.apache.org/mahout/

回复收藏 0 原文

~没有更多了~

关于作者

任性一次

暂无简介

0 文章

0 评论

23 人气

关注发私信

友情链接

文江博客

Java 开源文本挖掘框架

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（7）

关于作者

相关话题

热门标签

推荐作者

烙印

singlesman

给自己一个微笑

独孤求败

晨钟暮鼓

我是自愿种绣球花的

友情链接

Java 开源文本挖掘框架

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（7）

关于作者

相关话题

热门标签

推荐作者

烙印

singlesman

给自己一个微笑

独孤求败

晨钟暮鼓

我是自愿种绣球花的

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。