使用“词袋”进行主题检测的朴素贝叶斯方法

发布于 2024-08-31 09:11:45 字数 212 浏览 8 评论 0 原文

我正在尝试实现一种朴素贝叶斯方法来查找给定文档或单词流的主题。我可以查找朴素贝叶斯方法吗？

另外，我正在努力改进我的字典。最初，我有一堆映射到主题的单词（硬编码）。取决于除已映射的单词之外的单词的出现。根据这些单词的出现，我想将它们添加到映射中，从而改进和学习映射到主题的新单词。并且还改变了单词的概率。

我该怎么做呢？我的方法正确吗？

哪种编程语言最适合实施？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

难以启齿的温柔 2024-09-07 09:11:45

朴素贝叶斯的现有实现

您可能最好只使用支持使用朴素贝叶斯进行文档分类的现有软件包之一，例如：

Python - 使用 Python 来执行此操作基于自然语言工具包 (NLTK)，请参阅免费提供的文档分类部分href="http://www.nltk.org/book" rel="noreferrer">NLTK 书籍。

Ruby - 如果您更喜欢 Ruby，则可以使用分类器 宝石。下面是检测恶搞之家的引言是否有趣的示例代码 -有趣。

Perl - Perl 具有 Algorithm::NaiveBayes 模块，包含包中的示例使用片段概要。

C# - C# 程序员可以使用 nBayes。该项目的主页有一个简单的垃圾邮件/非垃圾邮件分类器的示例代码。

Java - Java 人员拥有 Classifier4J。您可以在此处查看训练和评分代码片段。

从关键字引导分类

听起来您想从一组已知可提示某些主题的关键字开始，然后使用这些关键字引导分类器。

这是一个相当聪明的想法。查看论文使用关键字、EM 和收缩进行引导的文本分类，作者：McCallum 和 Nigam (1999)。通过采用这种方法，他们能够将分类准确率从单独使用硬编码关键字的 45% 提高到使用自举朴素贝叶斯分类器的 66%。就他们的数据而言，后者接近人类的共识水平，因为人们在 72% 的时间里就文档标签达成一致。