返回介绍

3.实验方法与步骤

发布于 2024-01-28 21:41:24 字数 942 浏览 0 评论 0 收藏 0

实验一

1)打开Python软件,把“test/data/missing_data.xls”数据放入当前工作目录。

2)使用Pandas把数据读入当前工作目录。

3)针对读入的数据的每一列,进行编程。编程主要参考第4章的拉格朗日插值算法,具体步骤如下。

针对每列数据的每一个缺失值,逐个进行补数(这样可以在连续两个缺失值的情况下,使用前面一个已经补数的值来再次补数后面的一个值)。

针对一个缺失值,构造参考组。选取前面5个作为前参考组,后面5个为后参考组。如果前参考组或后参考组不足5个,则按实际个数构造参考组。

确认缺失值在参考组中的相对位置,然后使用拉格朗日插值进行缺失值插值。

根据插值后的值更新原始数据中相应位置的值。

4)编写并运行程序后,查看插值补数的值是否和给定的参考值一致。

实验二

1)把经过预处理的专家样本数据“test/data/model.xls”数据放入当前工作目录,并使用Pandas读入当前工作空间。

2)把工作空间的建模数据随机分为两部分,一部分用于训练,一部分用于测试。

3)使用Scikit-Lrean库的sklearn.tree的DecisionTreeClassifier函数以及训练数据构建CART决策树模型,使用predict函数和构建的CART决策树模型分别对训练和测试数据进行分类,并与真实值进行对比,得到模型正确率,同时使用sklearn.metrics的confusion_matrix和roc_curve函数画混淆矩阵和ROC曲线图(参考本章代码)。

4)使用Keras库以及训练数据构建LM神经网络模型,使用predict函数和构建的神经网络模型分别对训练和测试数据进行分类,参考第3)步得到模型正确率、混淆矩阵和ROC曲线图。

5)对比分析CART决策树模型和LM神经网络模型针对专家样本数据处理结果的好坏。

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。
列表为空,暂无数据
    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文