WEKA 的重采样过滤器 - 如何解释结果

发布于 2024-08-13 14:25:40 字数 396 浏览 5 评论 0原文

我目前正在努力解决机器学习问题,而我必须处理大量不平衡的数据集。也就是说,有六个类('1','2'...'6')。不幸的是,例如,类“1”有 150 个示例/实例,类“2”有 90 个实例,类“3”只有 20 个实例。所有其他类都无法“训练”,因为这些类没有可用的实例。

到目前为止,我发现 WEKA(我正在使用的机器学习工具包)提供了这种受监督的“重新采样”过滤器。当我使用 'noReplacement'=false 和 'bialToUniformClass'=1.0 应用此过滤器时,这会产生一个数据集,其中实例的数量很好并且几乎相等(对于类 '1'..'3' 和其他类)留空)。

我现在的问题是:WEKA 和这个过滤器如何为不同的类生成“新”/附加实例。

预先非常感谢您的任何提示或建议。

干杯 朱利安

I am currently strugeling with a machine learning problem whereas I have to deal with great unbalanced data sets. That is, there are six classes ('1','2'...'6'). Unfortunately there are e.g. for class '1' 150 examples/instances, for '2' 90 instances and for class '3' only 20. All other classes can't be "trained" since there are no available instances for these classes.

So far, I figured out that WEKA (the machine learning toolkit I am using) provides this supervised "Resample" filter. When I apply this filter with 'noReplacement'=false and 'bialToUniformClass'=1.0 then this results in a data set, where the the number of instances is nice and almost equal (for class '1'..'3' and the others stay empty).

My question is now: how does WEKA and this filter generate "new"/additional instances for different classes.

Thank you very much in advance for any hints or suggestions.

Cheers
Julian

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(3

内心荒芜 2024-08-20 14:25:40

事实并非如此。它正在对现有实例进行重新采样。如果您有一个 2 类实例,并要求以 1.0 的偏差进行重采样,则您可以预期该实例的 N 个副本以及已存在数据的每种其他类型的 N 个其他实例。

It doesn't. It's resampling existing instances. If you have one class-2 instance, and ask for a resampling with a bias of 1.0, you can expect N copies of that instance and N other instances of each other type for which there is already data.

纵情客 2024-08-20 14:25:40

使用 WEKA 的监督重采样过滤器将实例添加到类中。这是通过简单地将只有很少实例的类中的实例多次添加到结果数据集中来实现的。

因此,所得到的数据集在只有很少样本可用的类别方面存在很大偏差。

Using WEKA's supervised Resample filter adds instances to a class. This realized by simply adding instances from the class which has only few instances multiple times to the result data set.

Therefore the resulting data set is strongly biased in terms of a class for which only few samples are available.

浅紫色的梦幻 2024-08-20 14:25:40

尝试在预处理中使用 SMOTE 过滤器。

它通过为次要类生成新数据来平衡您的数据集。

Try with the SMOTE filter on the preprocess.

It balance your dataset by generating new data for the minor class.

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文