文章来源于网络收集而来，版权归原创者所有，如有侵权请及时联系！

4.5 Python主要数据预处理函数

发布于 2024-01-28 21:41:24 字数 2297 浏览 0 评论 0 收藏 0

表4-7给出了本节要介绍的Python中的插值、数据归一化、主成分分析等与数据预处理相关的函数。本小节对它们进行介绍。

表4-7　Python主要数据预处理函数

（1）interpolate

1）功能：interpolate是Scipy的一个子库，包含了大量的插值函数，如拉格朗日插值、样条插值、高维插值等。使用前需要用from scipy.interpolate import*引入相应的插值函数，读者应该根据需要到官网查找对应的函数名。

2）使用格式：f=scipy.interpolate.lagrange（x，y）。这里仅仅展示了一维数据的拉格朗日插值的命令，其中x，y为对应的自变量和因变量数据。插值完成后，可以通过f（a）计算新的插值结果。类似的还有样条插值、多维数据插值等，此处不一一展示。

（2）unique

1）功能：去除数据中的重复元素，得到单值元素列表。它既是Numpy库的一个函数（np.unique（）），也是Series对象的一个方法。

2）使用格式：

np.unique（D），D是一维数据，可以是list、array、Series；

D.unique（），D是Pandas的Series对象。

3）实例：求向量A中的单值元素，并返回相关索引。

>>> D = pd.Series([1, 1, 2, 3, 5]) >>> D.unique() array([1, 2, 3, 5], dtype=int64) >>> np.unique(D) array([1, 2, 3, 5], dtype=int64)

（3）isnull/notnull

1）功能：判断每个元素是否空值/非空值。

2）使用格式：D.isnull（）/D.notnull（）。这里的D要求是Series对象，返回一个布尔Series。可以通过D[D.isnull（）]或D[D.notnull（）]找出D中的空值/非空值。

（4）random

1）功能：random是Numpy的一个子库（Python本身也自带了random，但Numpy的更加强大），可以用该库下的各种函数生成服从特定分布的随机矩阵，抽样时可使用。

2）使用格式：

np.random.rand（k，m，n，...）生成一个k×m×n×...随机矩阵，其元素均匀分布在区间（0，1）上；

np.random.randn（k，m，n，...）生成一个k×m×n×...随机矩阵，其元素服从标准正态分布。

（5）PCA

1）功能：对指标变量矩阵进行主成分分析。使用前需要用from sklearn.decomposition import PCA引入该函数。

2）使用格式：model=PCA（）。注意，Scikit-Learn下的PCA是一个建模式的对象，也就是说，一般的流程是建模，然后是训练model.fit（D），D为要进行主成分分析的数据矩阵，训练结束后获取模型的参数，如.components_获取特征向量，以及.explained_variance_ratio_获取各个属性的贡献率等。

3）实例：使用PCA（）对一个10×4维的随机矩阵进行主成分分析。

>>>from sklearn.decomposition import PCA
>>>D = np.random.rand(10,4)
>>>pca = PCA()
>>>pca.fit(D)
PCA(copy=True, n_components=None, whiten=False)
>>>pca.components_ #返回模型的各个特征向量
array([[-0.42899319, -0.69804397,  0.32876844, -0.46969221],
       [ 0.03680965, -0.0667248 ,  0.7848853 ,  0.61493733],
       [-0.62222716,  0.68499407,  0.28400153, -0.25091755],
       [-0.65379144, -0.19765007, -0.4418252 ,  0.58161989]])
>>>pca.explained_variance_ratio_ #返回各个成分各自的方差百分比
array([ 0.40836652,  0.32861061,  0.21894296,  0.0440799 ])

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

列表为空，暂无数据

4.5 Python主要数据预处理函数

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。