用于神经网络模型预测的数据的缺失值

发布于 2024-11-09 05:15:28 字数 225 浏览 5 评论 0原文

我目前有大量数据将用于训练预测神经网络（美国主要机场的千兆字节天气数据）。我几乎每天都有数据，但有些机场的数据中存在缺失值。例如，机场在 1995 年之前可能不存在，因此在此之前我没有该特定位置的数据。此外，有些还缺少整年（可能跨度为 1990 年至 2011 年，缺少 2003 年）。

我该如何使用这些缺失值进行训练而不误导我的神经网络？我虽然用 0 或 -1 填充空数据，但我觉得这会导致网络预测某些输出的这些值。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

梦初启 2024-11-16 05:15:29

我使用了很多神经网络进行预测，我可以告诉你，你可以简单地在数据中留下这些“漏洞”。事实上，神经网络能够学习观察到的数据内部的关系，因此，如果您没有特定的时期，那也没关系……如果您将空数据设置为常量值，您将为训练算法提供误导信息。神经网络不需要“连续”数据，事实上，在训练之前对数据集进行洗牌是一种很好的做法，以便在不连续的样本上进行反向传播阶段......

回复收藏 0 原文

风筝在阴天搁浅。 2024-11-16 05:15:29

一种名为 autoencoder 的神经网络适合您的工作。自动编码器可用于重建输入。自动编码器经过训练以学习底层数据流形/分布。然而，它们主要用于信号重建任务，例如图像和声音。但是，您可以使用它们来填补缺失的功能。

还有另一种技术称为“矩阵分解”，在许多推荐系统中使用。人们使用矩阵分解技术来用大量缺失值填充巨大的矩阵。例如，假设 IMDb 上有 100 万部电影。几乎没有人一生看过这些电影的 1/10。但她已经投票给了一些电影。该矩阵为 N x M，其中 N 是用户数量，M 是电影数量。矩阵分解是用于填充缺失值并根据用户之前对其他电影的投票向用户推荐电影的技术之一。