描述性统计
数据的计量尺度
分类 | 举例 |
---|---|
定类尺度 | 性别、民族、职业 |
定序尺度 | 职称、健康状况、质量等级 |
定距尺度 | 温度、纬度 |
定比尺度 | 质量、长度、能量 |
数据的集中趋势
平均数
平均数是描述定量数据的集中趋势,是最常用的一种测度值它主要适用千定量数据,而不适
用于定性数据。根据所掌握数据的不同,平均数有不同的计算形式和计算公式, 主要包括简单算术
平均数、加权算法平均数和几何算法平均数等。在进行数据分析时,简单算术平均数使用较为广泛,
本书着重介绍简单算术平均数。
平均数随着极端值的变化而变化,而且有向极端值靠近的可能性,因此平均数容易受到极端值的影响。
分位数
分位数是一种比较常用的数据探索性分析的指标,它的适用范围较广,既适合顺序数据,也适合定量数据。
它是每日介于最大值和最小值之间的一个数值,它舍得数据的一部分观察值小于或等于它,另一部分观察值大于或等于它。
常用的分位数有百分位数、四分位数和中位数等。
- 四分位数是一种特殊的百分位数,它不受极端值的影响。
- 中位数是一种特殊的四分位数,一组数据按大小顺序排列后,处在数列中点位置的数值,则被称为中位数。既适合顺序数据,也适合定量数据。
分位数
众数是描述分类数据的集中趋势最常用 的一种测度值,是指一组数据中出现次数最多的变量值。
它主要适用于分类数据,当然也适用于顺序数据及定量数据。一般只有在数据量较大的情况下,众数才有意义。不受极端值影响,但在一组数据中不是只有一个众数,有可能有多个众数或没有众数。
数据的离中趋势
极差
极差(全距)是一组数据中 的最大值与最小值的差距。是测定离中趋势的一种简便方法,它能说明数据组中各数据值的最大变化范围,可应用于粗略检查产品质量的稳定性和进行质量控制。
分位距
分位距是对全距的一种改进,它是从一级数据中剔除了一部分极端值之后重新计算的类似于全距的指标。
常用的分位距有四分位距、八分位距和十分位距等。
平均差
平均差是数据组中各数据与其算术平均数离差绝对值的算术平均值。受极端值影响较小,对整个统计数列的离中趋势有较充分的代表性。
方差与标准差
方差(符号:s²) 是数据组中数据值与其算术平均数离差平方的算术平均数。方差的平均就是标准差(符号:s)。标准差的本质与平均差基本相同,只是在数据处理方法上与平均差不同。
平均差是用取绝对值的方法消除离差的正负号然后用 算术平均的方法求出平均数,而标准差是用平方的方法消除离差的正负号,然后对离差的平方计算算术平均数,并开方求出标准差。
- 标准差的性质:
- 标准差度量了偏离平均数的大小;
- 标准差是一类平均偏差;
- 标准差指出了数列中的数离平均值有多远。
离散系数
极差、平均差、标准差都是对数据的离中趋势进行绝对或平均差异的测定。要比较数据平均水平不同的两组数据的离中程度的大小,
就有必要计算它们的相对离中程度指标,即离散系数。
数据分布
指当把取得的数据按某种分组画出直方图后,将每个直方形的上边的中点用一根曲线连接在一起,也即拟合出一根曲线,当分组的区间越来越小时,
直方图就变成了一根平滑的曲线,由这根曲线和横轴之间的面积,就组成了数据的分布。
在描述性统计中,数据分布形态的测定主要以正太分布为标准进行衡量,一组数据的分布形状是通过直坟图将该数据分布在数轴上拟合出一条曲线,
将曲线的尖峭程度和对称性与正太分布曲线相比较,其测试指标包括偏态和峰度。
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论