用于预处理的良好数据集

发布于 2024-12-12 15:10:47 字数 407 浏览 6 评论 0原文

我正在选修数据挖掘本科课程，并且有一项编写数据挖掘预处理器的作业。我可以自由选择编程语言和数据集。我想知道是否有人可以建议一个好的数据集来使用。我一直在浏览 UCI 存储库，并且发现了更多此类资源。但作为初学者，我不确定哪个数据集是一个不错的选择。预处理器应该处理以下内容：

数据清理
- 缺失值
- 错误
- 异常值
- 标准化
- 重复数据删除
数据缩减
- 采样技术
- 降维

选择数据集时应该考虑哪些属性？您有什么建议的具体数据集吗？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

离线来电— 2024-12-19 15:10:47

你回答了你自己的问题。选择具有您提到的属性的数据集列表，因为 UCI 存储库已对数据集进行了分类。您可以选择任何人来开始玩它。

因此，首先，如果我是你，我会逐步进行，了解每个数据集的外观及其对分类器性能的影响，并选择一些流行数据集，因为它们被用作大多数研究论文中的基准数据集。您列出的许多问题都是单独的机器学习问题，并且正在进行大量研究。

我会从这样的事情开始：
缺失值：虹膜、投票、心脏病
对于重复：921,810 首歌曲数据集（我认为不是来自 UCI）
标准化：具有不同特征范围的任何连续值数据集
采样技术：皮马
降维：瑞士卷

此外，查找数据集的另一种最佳方法是参考一些相应的出版物。例如，对于降维，您可以查看PCA，ISOMAP等论文，对于采样，请参见SMOTE论文等，看看他们的实验使用什么类型的数据并进行相应的操作。

回复收藏 0 原文

~没有更多了~

关于作者

浮云落日

暂无简介

文章

27 人气

关注发私信

友情链接

文江博客

用于预处理的良好数据集

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（1）

关于作者

相关话题

热门标签

推荐作者

櫻之舞

弥枳

m2429

寻找一个思念的角度

野却迷人

我怀念的。

友情链接

用于预处理的良好数据集

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（1）

关于作者

相关话题

热门标签

推荐作者

櫻之舞

弥枳

m2429

寻找一个思念的角度

野却迷人

我怀念的。

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。