如何生成具有异常值的不同形状(例如正方形、圆形、矩形)的双变量数据?
我目前正在寻找一些工具,可以生成不同形状的数据集,例如正方形、圆形、矩形等,并带有异常值以进行聚类分析。
你们中有人可以推荐一个好的数据集生成器来进行聚类分析吗? 有没有办法用 R 等语言生成这样的数据集?
I am currently looking for some tool that would generate datasets of different shapes like square, circle, rectangle, etc. with outliers for cluster analysis.
Can any one of you recommend a good dataset generator for cluster analysis?
Is there anyway to generates such datasets in languages like R?
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(3)
您可能应该查看 mlbench 包,特别是生成合成数据集来自
mlbench.*
函数,请参阅下面的一些示例。其他数据集或实用函数可能最好在 CRAN 上的集群 任务视图。正如@Roman 所说,添加异常值并不困难,尤其是当您仅在二维中工作时。
You should probably look into the mlbench package, especially synthetic dataset generating from
mlbench.*
functions, see some examples below.Other datasets or utility functions are probably best found on the Cluster Task View on CRAN. As @Roman said, adding outliers is not really difficult, especially when you work in only two dimensions.
我将创建一个形状并提取边界坐标。您可以使用 splancs 包用随机点填充形状。
这是我的一个程序中的一小段:
随意添加异常值。解决这个问题的一种方法是对不同的形状进行采样并以不同的方式将它们连接起来。
I would create a shape and extract bounding coordinates. You can populate the shape with random points using
splancs
package.Here's a small snippet from one of my programs:
Feel free to add outliers. One way of going about this is sampling different shapes and joining them in different ways.
ELKI中有一个灵活的数据生成器,可以生成任意维度的各种分布。例如,它还可以生成 Gamma 分布变量。
Wiki 上有文档: http://elki.dbs.ifi.lmu.de/维基/数据集生成器
There is a flexible data generator in ELKI that can generate various distributions in arbitrary dimensionality. It also can generate Gamma distributed variables, for example.
There is documentation on the Wiki: http://elki.dbs.ifi.lmu.de/wiki/DataSetGenerator