神经网络输入数据的优化

发布于 2024-08-16 18:35:24 字数 367 浏览 5 评论 0原文

我正在尝试构建一个应用程序来检测来自网页的广告图像。一旦我检测到这些，我将不允许它们显示在客户端。

基本上我使用反向传播算法使用此处给出的数据集来训练神经网络： http://archive.ics.uci.edu/ml/datasets/Internet+Advertisements。

但在该数据集中没有。属性非常高。事实上，该项目的一位导师告诉我，如果你训练具有这么多属性的神经网络，那么将需要很多时间来接受训练。那么有没有办法优化输入数据集呢？或者我只需要使用那么多属性？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

各自安好 2024-08-23 18:35:24

1558 实际上是一个适度数量的特征/属性。实例数（3279）也很小。问题不在于数据集方面，而在于训练算法方面。

ANN 的训练速度很慢，我建议你使用逻辑回归或支持向量机。他们俩的训练速度都非常快。特别是，svm有很多快速算法。

在此数据集中，您实际上正在分析文本，而不是图像。我认为线性族分类器，即逻辑回归或支持向量机，更适合你的工作。

如果您用于生产并且无法使用开源代码。与良好的 ANN 和 SVM 相比，逻辑回归非常容易实现。

如果你决定使用逻辑回归或SVM，我以后可以推荐一些文章或源代码供你参考。

回复收藏 0 原文

夜灵血窟げ 2024-08-23 18:35:24

如果您实际上使用的是具有 1558 个输入节点和只有 3279 个样本的反向传播网络，那么训练时间是您遇到的问题中最少的：即使您有一个非常小的网络，只有一个包含 10 个神经元的隐藏层，您也有 1558*输入层和隐藏层之间的权重为10。您如何期望从仅 3279 个样本中获得 15580 个自由度的良好估计？（这个简单的计算甚至没有考虑“维数灾难”）

您必须分析您的数据以找出如何优化它。尝试理解您的输入数据：哪些特征（元组）具有（共同）统计显着性？（为此使用标准统计方法）某些功能是否多余？（主成分分析是一个很好的说明点。）不要指望人工神经网络可以为您完成这项工作。

另外：请记住 Duda 和 Hart 著名的“没有免费午餐定理”：没有一种分类算法适用于所有问题。对于任何分类算法 X 来说，都存在一个问题，即抛硬币会得到比 X 更好的结果。如果考虑到这一点，在分析数据之前决定使用哪种算法可能不是一个明智的主意。您很可能选择了实际上比盲目猜测您的特定问题表现更差的算法！（顺便说一句：Duda&Hart&Storks 的关于模式分类的书是一本如果您还没有阅读过，这是了解这一点的很好的起点。）

回复收藏 0 原文