当前位置：文江博客话题详情

使用标签对文档进行分类

发布于 2024-10-31 03:17:33 字数 240 浏览 6 评论 0原文

我有大量的文档（主要是 pdf 和 doc）想要分类，因此我可以根据某些标签搜索它们。这些标签可以是我自己的（我将标签添加到文档中），也可以是从文本中提取的。

我刚刚看到一篇与此相关的帖子（使用 Apache Mahout 对数据进行分类），但也许还有更简单的事情。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

扎心 2024-11-07 03:17:33

Mahout 可能对您的问题来说太过分了 - 但您可以通过使用 OpenNLP 获得相当快速、简单的解决方案。

http://opennlp.sourceforge.net/api/index.html

具体看opennlp.tools.doccat 包。本质上，您必须为您想要的每个类别检查并手动标记一小部分项目。如果它们确实不同，那么您可以使用较小的样本量。

您可以使用 DocumentCategorizerME.train() 静态函数来训练文档集合，其中每个文档都需要一个类别标签和要训练的文本块。然后，您可以使用经过训练的模型初始化 DocumentCategorizerME，并开始对所有其余文档进行分类。

一旦完成此操作，您就可以（我认为）将模型写入文件，这样您就不必再这样做了。

回复收藏 0 原文

合约呢 2024-11-07 03:17:33

这篇关于提取关键字和分类网页的文章是相关的，可能会有所帮助。在您的示例中，听起来您可以使用标签代替关键字提取部分（尽管您可能想组合使用两者）。 Weka 很容易使用，我绝对推荐看一下。

回复收藏 0 原文

~没有更多了~

关于作者

彩扇题诗

暂无简介

0 文章

0 评论

837 人气

关注发私信

书间行客

文章 0 评论 0

关注

我ぃ本無心為│何有愛

文章 0 评论 0

关注

神妖

文章 0 评论 0

关注

undefined

文章 0 评论 0

关注

38169838

文章 0 评论 0

关注

彡翼

文章 0 评论 0

友情链接

文江博客

使用标签对文档进行分类

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（2）

关于作者

相关话题

热门标签

推荐作者

书间行客

我ぃ本無心為│何有愛

神妖

undefined

38169838

彡翼

友情链接

使用标签对文档进行分类

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（2）

关于作者

相关话题

热门标签

推荐作者

书间行客

我ぃ本無心為│何有愛

神妖

undefined

38169838

彡翼

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。