Weka 标准化柱

发布于 2024-08-22 02:09:02 字数 245 浏览 6 评论 0原文

我有一个包含 14 个数字列的 ARFF 文件。我想分别对每一列执行标准化，即将每列的值修改为 (actual_value - min(this_column)) / (max(this_column) - min(this_column))。因此，列中的所有值都将在 [0, 1] 范围内。一列的最小值和最大值可能与另一列的最小值和最大值不同。

如何使用 Weka 过滤器做到这一点？

谢谢

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

柒夜笙歌凉 2024-08-29 02:09:02

这可以使用

weka.filters.unsupervised.attribute.Normalize

应用此过滤器后，每列中的所有值将在 [0, 1] 范围内来完成

This can be done using

weka.filters.unsupervised.attribute.Normalize

After applying this filter all values in each column will be in the range [0, 1]

回复收藏 0 原文

染火枫林 2024-08-29 02:09:02

这是正确的。只是想提醒一下“标准化”和“标准化”的区别。问题中提到的是“标准化”，而“归一化”假设高斯分布并通过每个属性的均值和标准差进行归一化。如果数据中有异常值，标准化过滤器可能会损害您的数据分布，因为最小值或最大值可能比其他实例远得多。

回复收藏 0 原文

榕城若虚 2024-08-29 02:09:02

在这种情况下，我们可以使用 weka.filters.unsupervised.attribute.Normalize 过滤器进行标准化，但如果我们只想标准化某些列，以下将是最好的方法。

对所选列应用标准化

unsupervised.attribute.PartitionedMultiFilter 可用于此任务。
因此，您必须根据需要配置过滤器和范围部分。
例如：如果我只想对湿度属性进行标准化

步骤01：

添加 ParrririanedMultiFilter 后 ->点击过滤器文本框 ->从 weka.filters.unsupervised.attribute.Normalize 选择 Normalize ->并根据需要编辑标准化过滤器（通过给出比例和平移值）

步骤 02：

点击范围文本框 ->删除默认过滤器（从第一个到最后一个）->然后添加你要过滤的列号->点击确定->单击“应用”

现在过滤器将仅添加到选定的（湿度）列。

回复收藏 0 原文

感情洁癖 2024-08-29 02:09:02

这是 JAVA 中 K-Means 的工作标准化示例。

final SimpleKMeans kmeans = new SimpleKMeans();

final String[] options = weka.core.Utils
        .splitOptions("-init 0 -max-candidates 100 -periodic-pruning 10000 -min-density 2.0 -t1 -1.25 -t2 -1.0 -N 10 -A \"weka.core.EuclideanDistance -R first-last\" -I 500 -num-slots 1 -S 50");
kmeans.setOptions(options);

kmeans.setSeed(10);
kmeans.setPreserveInstancesOrder(true);
kmeans.setNumClusters(25);
kmeans.setMaxIterations(1000);

final BufferedReader datafile = new BufferedReader(new FileReader("/Users/data.arff");
Instances data = new Instances(datafile);

//normalize
final Normalize normalizeFilter = new Normalize();
normalizeFilter.setInputFormat(data);
data = Filter.useFilter(data, normalizeFilter);

//remove class column[0] from cluster
data.setClassIndex(0);
final Remove removeFilter = new Remove();
removeFilter.setAttributeIndices("" + (data.classIndex() + 1));
removeFilter.setInputFormat(data);
data = Filter.useFilter(data, removeFilter);

kmeans.buildClusterer(data);

System.out.println(kmeans.toString());

// evaluate clusterer
final ClusterEvaluation eval = new ClusterEvaluation();
eval.setClusterer(kmeans);
eval.evaluateClusterer(data);
System.out.println(eval.clusterResultsToString());

如果您有 CSV 文件，请将上面的 BufferedReader 行替换为下面提到的数据源：

final DataSource source = new DataSource("/Users/data.csv");
final Instances data = source.getDataSet();

Here is the working normalization example with K-Means in JAVA.

final SimpleKMeans kmeans = new SimpleKMeans();

final String[] options = weka.core.Utils
        .splitOptions("-init 0 -max-candidates 100 -periodic-pruning 10000 -min-density 2.0 -t1 -1.25 -t2 -1.0 -N 10 -A \"weka.core.EuclideanDistance -R first-last\" -I 500 -num-slots 1 -S 50");
kmeans.setOptions(options);

kmeans.setSeed(10);
kmeans.setPreserveInstancesOrder(true);
kmeans.setNumClusters(25);
kmeans.setMaxIterations(1000);

final BufferedReader datafile = new BufferedReader(new FileReader("/Users/data.arff");
Instances data = new Instances(datafile);

//normalize
final Normalize normalizeFilter = new Normalize();
normalizeFilter.setInputFormat(data);
data = Filter.useFilter(data, normalizeFilter);

//remove class column[0] from cluster
data.setClassIndex(0);
final Remove removeFilter = new Remove();
removeFilter.setAttributeIndices("" + (data.classIndex() + 1));
removeFilter.setInputFormat(data);
data = Filter.useFilter(data, removeFilter);

kmeans.buildClusterer(data);

System.out.println(kmeans.toString());

// evaluate clusterer
final ClusterEvaluation eval = new ClusterEvaluation();
eval.setClusterer(kmeans);
eval.evaluateClusterer(data);
System.out.println(eval.clusterResultsToString());

If you have CSV file then replace BufferedReader line above with below mentioned Datasource:

final DataSource source = new DataSource("/Users/data.csv");
final Instances data = source.getDataSet();

回复收藏 0 原文

~没有更多了~

关于作者

愿与i

暂无简介

文章

27 人气

关注发私信

友情链接

文江博客

Weka 标准化柱

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（4）

关于作者

相关话题

热门标签

推荐作者

佚名

羁客

天天爱笑的徐老师

星

夏日落

隐诗

友情链接

Weka 标准化柱

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（4）

关于作者

相关话题

热门标签

推荐作者

佚名

羁客

天天爱笑的徐老师

星

夏日落

隐诗

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。