数据子集的分类器性能

发布于 2024-09-18 03:29:54 字数 125 浏览 1 评论 0原文

我使用 Weka 对一组带标签的网页执行分类,并使用 AUC 测量分类器性能。我有一个单独的六级因子,未在分类中使用,我想知道分类器在该因子的每个级别上的表现如何。

我应该使用哪些技术或措施来测试数据子集上的分类器性能?

I'm using Weka to perform classification on a set of labelled web pages, and measuring classifier performance with AUC. I have a separate six-level factor that is not used in classification, and I'd like to know how well classifiers perform on each level of the factor.

What techniques or measures should I use to test classifier performance on a subset of data?

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(2

中性美 2024-09-25 03:29:54

我不确定这是否正是您要问的,但人们经常使用 cross -验证将一组数据分解为多个训练/测试子集,以更好地评估学习表现。

基本思想(例如 10 倍交叉验证)是:

  1. 将数据随机分为训练集和测试集
  2. 在训练集上训练分类器
  3. 评估其在测试集上的性能
  4. 使用不同的随机数重复步骤 1-3 九次训练/测试分割

分类器的整体性能是其在所有 10 个测试集上的平均性能。

我环顾四周,发现一些如何执行交叉的示例以编程方式进行验证通过Weka UI

I'm not sure if this is exactly what you are asking, but people often use cross-validation to break a single set of data into multiple training/testing subsets to better evaluate learning performance.

The basic idea (for e.g. 10-fold cross-validation) is to:

  1. randomly split your data into training and testing sets
  2. train a classifier on the training set
  3. evaluate its performance on the testing set
  4. repeat steps 1-3 nine more times with different random training/testing splits

The overall performance of the classifier is its average performance on all 10 testing sets.

I looked around a bit and found some examples of how to perform cross-validation programmatically or via the Weka UI.

难忘№最初的完美 2024-09-25 03:29:54

Nate Kohl 推荐的步骤都是正确的。另一个非常重要的问题是衡量性能的函数。根据我的经验,最大化 AUC 有时会导致分类器出现严重偏差。我更喜欢使用 Matthews 相关系数 (MCC) 作为二元分类器或 Cohen's kappa 用于具有两个以上可能值的分类分类器

The steps that Nate Kohl recommended are all correct. Another, very important question is the function for measuring the performance. In my experience, maximizing the AUC can sometimes lead to substantial bias of the classifier. I prefer using Matthews Correlation Coeficient (MCC) for binary classifiers or Cohen's kappa for categorical classifiers with more than two possible values

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文