PCA(Principal Component Analysis) 主成分分析

发布于 2024-05-11 16:33:14 字数 1477 浏览 24 评论 0

降维的必要性

  • 多维度变量之间存在相互关系,导致分析复杂性增大
  • 维度越高数据就越稀疏,低维度更接近正态分布

算法介绍

pcan 维特征经过线性变换成 m 维,新特征是旧特征的线性组合,这些线性组合最大化样本方差,尽量使新的 m 个特征互不相关

例子

下面是一些学生的成绩:

假设各科成绩互不相关,那么很明显数学是第一主成分(可以明显拉开成绩|方差最大),接下去是化学,语文基本是没影响所以分析成绩可以不考虑语文

接下去看下面这个例子

这份成绩就有点凌乱,很难找出主成分,接下去我们就介绍 pca 理论如何进行主成分分析

PCA 算法步骤

1 计算样本间的协方差,因为方差越大越可以代表数据

样本 X 和样本 Y 的协方差(Covariance)

协方差之间具体的意义(两个随机变量 X 与 Y 之间相互关系):

当 cov(X, Y)>0 时,表明 X 与 Y 正相关;
当 cov(X, Y)<0 时,表明 X 与 Y 负相关;
当 cov(X, Y)=0 时,表明 X 与 Y 不相关。

2 构建方差矩阵

当样本大小为 n 时,它们之间的方差是一个大小为 n 的方阵

3 根据公式求出特征值,还有特征向量

那么我们就可以根据特征值的大小给特征向量进行排序,因为特征值表示的就是特征向量经过协方差矩阵线性变换后的贡献率,方差越大特征值也就越大。

所以我们取特征值较大的 k 维向量就是降维了,然后利用这份新数据进行分析 算法复杂度就降低很多了。

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。
列表为空,暂无数据

关于作者

扛刀软妹

暂无简介

文章
评论
28 人气
更多

推荐作者

櫻之舞

文章 0 评论 0

弥枳

文章 0 评论 0

m2429

文章 0 评论 0

野却迷人

文章 0 评论 0

我怀念的。

文章 0 评论 0

    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文