3.实验方法与步骤
实验一
1)打开Python软件,把“test/data/missing_data.xls”数据放入当前工作目录。
2)使用Pandas把数据读入当前工作目录。
3)针对读入的数据的每一列,进行编程。编程主要参考第4章的拉格朗日插值算法,具体步骤如下。
针对每列数据的每一个缺失值,逐个进行补数(这样可以在连续两个缺失值的情况下,使用前面一个已经补数的值来再次补数后面的一个值)。
针对一个缺失值,构造参考组。选取前面5个作为前参考组,后面5个为后参考组。如果前参考组或后参考组不足5个,则按实际个数构造参考组。
确认缺失值在参考组中的相对位置,然后使用拉格朗日插值进行缺失值插值。
根据插值后的值更新原始数据中相应位置的值。
4)编写并运行程序后,查看插值补数的值是否和给定的参考值一致。
实验二
1)把经过预处理的专家样本数据“test/data/model.xls”数据放入当前工作目录,并使用Pandas读入当前工作空间。
2)把工作空间的建模数据随机分为两部分,一部分用于训练,一部分用于测试。
3)使用Scikit-Lrean库的sklearn.tree的DecisionTreeClassifier函数以及训练数据构建CART决策树模型,使用predict函数和构建的CART决策树模型分别对训练和测试数据进行分类,并与真实值进行对比,得到模型正确率,同时使用sklearn.metrics的confusion_matrix和roc_curve函数画混淆矩阵和ROC曲线图(参考本章代码)。
4)使用Keras库以及训练数据构建LM神经网络模型,使用predict函数和构建的神经网络模型分别对训练和测试数据进行分类,参考第3)步得到模型正确率、混淆矩阵和ROC曲线图。
5)对比分析CART决策树模型和LM神经网络模型针对专家样本数据处理结果的好坏。
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论