当前位置：文江博客话题详情

如何选择朴素贝叶斯分类器的训练数据

发布于 2024-11-18 14:54:36 字数 139 浏览 2 评论 0原文

我想仔细检查一些我不确定的关于分类器学习训练集的概念。当我们为训练数据选择记录时，我们是否为每个类别选择相同数量的记录，总和为 N，还是应该随机挑选 N 条记录（无论类别）？

直觉上我想到的是前者，但想到先前的类别概率将是相等的并且没有真正的帮助？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

一紙繁鸢 2024-11-25 14:54:36

这取决于您的班级的分布，并且只能根据现有问题的领域知识来做出决定。
您可以提出以下问题：

是否有两个非常相似的课程，学习者是否有足够的信息来区分它们？
每个类别的先验概率是否存在较大差异？

如果是这样，您可能应该重新分配这些类。

根据我的经验，重新分配类没有什么坏处，但并不总是必要的。

这实际上取决于您的班级分布。在欺诈或入侵检测的情况下，预测类别的分布可以小于1%。
在这种情况下，如果您希望分类器了解每个类之间的差异，则必须在训练集中均匀分布类。否则，它将生成一个可以正确分类 99% 以上案例的分类器，而无法正确识别欺诈案例，而这正是创建分类器的全部目的。

一旦您拥有一组均匀分布的类，您就可以使用任何技术（例如 k 折）来执行实际训练。

需要调整类别分布但不一定每个类别的记录数量相同的另一个示例是根据字母表中的大写字母的形状来确定其情况。

如果您采用英语中常用的字母分布来训练分类器，则几乎不会出现字母 Q 的情况（如果有的话）。另一方面，字母O很常见。如果您不重新分配类以允许相同数量的 Q 和 O，则分类器没有足够的信息来区分 <代码>Q。您需要向其提供足够的信息（即更多Q），以便它可以确定Q 和O 确实是不同的字母。

回复收藏 0 原文

何必那么矫情 2024-11-25 14:54:36

首选方法是使用 K-Fold 交叉验证来获取学习和测试数据。

引用维基百科：

K折交叉验证
在 K 折交叉验证中，
原始样本是随机的
划分为 K 个子样本。的
K 个子样本，单个子样本为
保留作为验证数据
测试模型，剩下的K
− 1 个子样本用作训练
数据。交叉验证过程是
然后重复K次（折叠），
使用每个 K 个子样本
作为验证数据恰好一次。
折叠后的 K 结果可以
平均（或以其他方式组合）为
产生单一估计。这
该方法相对于重复方法的优点
随机子采样是所有
观察结果用于两者
训练和验证，以及每个
观察用于验证
正好一次。 10倍交叉验证
是常用的。
在分层 K 折交叉验证中，
选择折叠以便
平均响应值约为
所有折叠都相等。如果是
二分法分类，这
意味着每个折叠大约包含
两种类型的比例相同
类标签。