4.5 Python主要数据预处理函数
表4-7给出了本节要介绍的Python中的插值、数据归一化、主成分分析等与数据预处理相关的函数。本小节对它们进行介绍。
表4-7 Python主要数据预处理函数
(1)interpolate
1)功能:interpolate是Scipy的一个子库,包含了大量的插值函数,如拉格朗日插值、样条插值、高维插值等。使用前需要用from scipy.interpolate import*引入相应的插值函数,读者应该根据需要到官网查找对应的函数名。
2)使用格式:f=scipy.interpolate.lagrange(x,y)。这里仅仅展示了一维数据的拉格朗日插值的命令,其中x,y为对应的自变量和因变量数据。插值完成后,可以通过f(a)计算新的插值结果。类似的还有样条插值、多维数据插值等,此处不一一展示。
(2)unique
1)功能:去除数据中的重复元素,得到单值元素列表。它既是Numpy库的一个函数(np.unique()),也是Series对象的一个方法。
2)使用格式:
np.unique(D),D是一维数据,可以是list、array、Series;
D.unique(),D是Pandas的Series对象。
3)实例:求向量A中的单值元素,并返回相关索引。
>>> D = pd.Series([1, 1, 2, 3, 5]) >>> D.unique() array([1, 2, 3, 5], dtype=int64) >>> np.unique(D) array([1, 2, 3, 5], dtype=int64)
(3)isnull/notnull
1)功能:判断每个元素是否空值/非空值。
2)使用格式:D.isnull()/D.notnull()。这里的D要求是Series对象,返回一个布尔Series。可以通过D[D.isnull()]或D[D.notnull()]找出D中的空值/非空值。
(4)random
1)功能:random是Numpy的一个子库(Python本身也自带了random,但Numpy的更加强大),可以用该库下的各种函数生成服从特定分布的随机矩阵,抽样时可使用。
2)使用格式:
np.random.rand(k,m,n,...)生成一个k×m×n×...随机矩阵,其元素均匀分布在区间(0,1)上;
np.random.randn(k,m,n,...)生成一个k×m×n×...随机矩阵,其元素服从标准正态分布。
(5)PCA
1)功能:对指标变量矩阵进行主成分分析。使用前需要用from sklearn.decomposition import PCA引入该函数。
2)使用格式:model=PCA()。注意,Scikit-Learn下的PCA是一个建模式的对象,也就是说,一般的流程是建模,然后是训练model.fit(D),D为要进行主成分分析的数据矩阵,训练结束后获取模型的参数,如.components_获取特征向量,以及.explained_variance_ratio_获取各个属性的贡献率等。
3)实例:使用PCA()对一个10×4维的随机矩阵进行主成分分析。
>>>from sklearn.decomposition import PCA >>>D = np.random.rand(10,4) >>>pca = PCA() >>>pca.fit(D) PCA(copy=True, n_components=None, whiten=False) >>>pca.components_ #返回模型的各个特征向量 array([[-0.42899319, -0.69804397, 0.32876844, -0.46969221], [ 0.03680965, -0.0667248 , 0.7848853 , 0.61493733], [-0.62222716, 0.68499407, 0.28400153, -0.25091755], [-0.65379144, -0.19765007, -0.4418252 , 0.58161989]]) >>>pca.explained_variance_ratio_ #返回各个成分各自的方差百分比 array([ 0.40836652, 0.32861061, 0.21894296, 0.0440799 ])
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论