使用 J48 和 IBk (KNN) 算法进行分类

发布于 2024-12-27 00:30:47 字数 249 浏览 1 评论 0原文

我已经用许多不同类型的蘑菇录制了一张唱片。这些应该分为食用的和有毒的。分类必须使用 k 最近邻 (1) 和 J48 来执行。

两种算法的精度均为 99.88%。对我来说相关的是假阳性率。 J48 的税率为 0.3%,KNN 为 0%。所以我想说 KNN 更适合所选问题。

但是,我不知道为什么。对于某些记录,KNN 比 J48 更好,有一个通用的答案吗?

第二件事是我应该使用 10 倍交叉验证。那到底是什么?

提前致谢

I have given a record with many different types of mushrooms. These should be classified into edible and poisonous. The classification have to perform with k-nearest-neighbors (1) and J48.

Both algorithms shows a precision of 99.88%. Relevant for me is the false-positive rate. J48 has a rate of 0.3% and KNN of 0%. So I would say KNN is better suited for the chosen problem.

However, I dont know an answer why. Is there a general a answer why KNN is bether for some records than the J48?

The second thing is that I should use a 10-fold-cross-validation. What is that exatly?

Thanks in advance

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(1

空心↖ 2025-01-03 00:30:47

对于某些记录,KNN 比 J48 更好,有一个通用的答案吗?

不。这在很大程度上取决于数据集、两种算法的设置以及您进行评估的方式(您确实使用了单独的训练和测试集,不是吗?)。

10 折交叉验证意味着:您将数据集分成 10 个大小相等的“折叠”,然后对于每个折叠 i

  • 在所有其他九个折叠上进行训练,并
  • 在折叠 i 上进行评估em>

并取平均准确度。请参阅维基百科或任何有关机器学习的书籍。

Is there a general a answer why KNN is bether for some records than the J48?

No. It depends strongly on the dataset, the settings for both algorithms and the way you're doing the evaluation (you did use separate training and test sets, didn't you?).

10-fold cross validation means: you split your dataset in 10 equally-sized "folds", then for each of those folds i

  • train on all the other nine folds
  • evaluate on fold i

and take the average accuracy. See Wikipedia or any book on machine learning.

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文