T检验定义 编辑
t检验是一种推理测验统计的用于判断两组均值是否有显著差异,这可能与某些特征有关。它主要用于当数据集,如记录为100次抛硬币结果的数据集,将遵循正态分布,可能有未知的方差。t检验被用作假设检验工具,它允许对一个假设进行检验假设 适用于人群;
t检验考察t统计量,即T分布值和自由度来确定统计显著性。要使用三种或三种以上方法进行测试,必须使用;方差分析 .
关键要点
- t检验是一种推断统计量,用于确定两组的均值是否存在显著差异,这可能与某些特征有关。
- t检验是许多用于研究目的的检验之一假设检验在统计学上。
- 计算t检验需要三个关键数据值。它们包括每个数据集的平均值之间的差异(称为平均差)、每组的标准差以及每组数据值的数量。
- 根据所需的数据和分析类型,可以进行几种不同类型的t检验。
T检验
解释T检验
本质上,t检验允许我们比较两个数据集的平均值,并确定它们是否来自同一人群。在上面的例子中,如果我们从a班的学生和B班的学生中抽取一个样本,我们不会期望他们有完全相同的平均值和标准差。同样地,从安慰剂对照组和从药物处方组采集的样本应具有稍微不同的平均值和标准偏差。
在数学上,t检验从两组样本中抽取一个样本,并通过假设两个均值相等的零假设来建立问题陈述。根据适用的公式,计算某些值并与标准值进行比较,并相应地接受或拒绝假定的无效假设。
如果零假设符合被拒绝的条件,则表明数据读数很强,可能不是偶然的。t检验只是用于此目的的众多检验之一。统计学家还必须使用t检验以外的检验来检验更多的变量和更大样本量的检验。对于大样本量,统计学家使用;Z-检验 . 其他测试选项包括卡方检验和f检验。
t检验有三种类型,分为依赖性t检验和独立性t检验。
测试结果不明确
试想一下,一个药品制造商想测试一种新发明的药品。它遵循的标准程序是在一组病人身上试验药物,然后给另一组病人(称为对照组)服用安慰剂。给予对照组的安慰剂是一种没有预期治疗价值的物质,并作为衡量给予实际药物的另一组如何反应的基准。
药物试验后,服用安慰剂的对照组成员报告平均预期寿命增加了3年,而服用新药的对照组成员报告平均预期寿命增加了4年。即时观察可能表明该药物确实有效,因为对使用该药物的人群效果更好。然而,观察结果也有可能是偶然发生的,特别是意外的运气。t检验有助于判断结果是否正确,是否适用于整个人群。
在一所学校,100名a班学生的平均得分为85%,标准差为3%。另外100名B班学生的平均得分为87%,标准差为4%。虽然B班的平均成绩好于A班,但得出B班学生的总体成绩好于A班学生的结论可能是不正确的,这是因为两个班的考试成绩都存在着自然的变异性,因此这种差异可能仅仅是由于偶然性造成的。t检验有助于判断一个班级的表现是否比另一个好。
T检验假设
- 关于t检验的第一个假设涉及测量范围。t检验的假设是,应用于所收集数据的测量量表遵循连续或顺序量表,例如智商测试的分数。
- 第二个假设是简单的随机样本,即数据是从总人口中有代表性的随机选择部分收集的。
- 第三个假设是,当绘制数据时,结果是正态分布,钟形分布曲线。
- 最后的假设是方差的同质性。当样本的标准差近似相等时,存在均匀或相等的方差。
计算T检验
计算t检验需要三个关键数据值。它们包括每个数据集的平均值之间的差异(称为平均差)、每组的标准差以及每组数据值的数量。
t检验的结果产生t值。然后将计算出的t值与从临界值表(称为T分布表 ). 这种比较有助于确定机会单独对差异的影响,以及差异是否超出了机会范围。t检验的问题是,两组之间的差异是否代表了研究中的真实差异,或者是否可能是无意义的随机差异。
T分布表
T分布表在一条尾巴和两条尾巴 格式。前者用于评估具有明确方向(正或负)的固定值或范围的案例。例如,当掷一对骰子时,输出值保持在-3以下或超过7的概率是多少?后者用于范围界限分析,例如询问坐标是否介于-2和+2之间。
可以使用支持必要统计功能的标准软件程序(如MS Excel中的程序)进行计算。
T值和自由度
t检验产生两个值作为其输出:t值和自由度 . t值是两个样本集的平均值之差与样本集内存在的变化之比。虽然分子值(两个样本集的平均值之差)的计算很简单,但分母(样本集中存在的变化)可能会变得有点复杂,这取决于所涉及的数据值的类型。比率的分母是对离散度或可变性的度量。t值越高,也称为t得分,表明两个样本集之间存在很大差异。t值越小,两个样本集之间的相似度越高。
- 一个大的t分数表明这两组是不同的。
- 一个小的t分数表明这两组是相似的。
自由度是指在一项研究中,可以自由改变的价值观,对于评估无效假设的重要性和有效性至关重要。这些值的计算通常取决于样本集中可用数据记录的数量。
相关(或配对)T检验
当样本通常包括配对 类似单位的,或者重复计量的。例如,在接受特定治疗前后,可能会有相同的患者反复接受测试的情况。在这种情况下,每个患者都被用作对照样本。
此方法也适用于样本以某种方式相关或具有匹配特征的情况,例如涉及儿童、父母或兄弟姐妹的比较分析。相关或配对t检验属于依赖类型,因为这涉及两组样本相关的情况。
计算配对t检验的t值和自由度的公式为:
T=(n)s(差异)意思是1−意思是2哪里:意思是1&和;意思是2=每个样本集的平均值s(差异)=成对数据值差异的标准偏差n=样本大小(成对差异的数量)
其余两种属于独立t检验。这些类型的样本是独立选择的,即两组中的数据集引用的值不同。这些病例包括一组100名患者被分成两组,每组50名患者。其中一组成为对照组,给予安慰剂,另一组接受处方治疗。这构成了两个相互不配对的独立样本组。
等方差(或混合)T检验
当每组样本数相同,或两组数据的方差相似时,采用等方差t检验。以下公式用于计算等方差t检验的t值和自由度:
T值=n1+n2−2(n1−1)&次数;var12+(n2−1)&次数;var22&次数;n11+n21mean1−mean2哪里:mean1&和;mean2=每个的平均值样本集的var1&和;var2=每个样本集的方差
而且,
自由度=n1+n2−2哪里:n1&和;n2=每个样本集中的记录数
不等方差T检验
不平等方差t检验 当每组中的样本数不同,且两个数据集的方差也不同时使用。这个测试也被称为韦尔奇的t-测试。以下公式用于计算不等方差t检验的t值和自由度:
T值=n1var12+n2var22mean1−mean2哪里:mean1&和;mean2=每个的平均值样本集的var1&和;var2=每个样本集的方差n1&和;n2=每个样本集中的记录数
而且,
自由度=n1−1(n1var12)2+n2−1(n2var22)2(n1var12+n2var22)2哪里:var1&和;var2=每个样本集的方差n1&和;n2=每个样本集中的记录数
确定要使用的正确T检验
以下流程图可用于根据样本集的特征确定应使用哪个t检验。要考虑的关键项目包括样本记录是否相似、每个样本集中的数据记录数以及每个样本集的方差。
不等方差T检验示例
假设我们对美术馆中收到的画进行对角线测量。一组样品包括10幅画,另一组包括20幅画。数据集,以及相应的意思是 和方差值如下:
第1组 | 设置2 | |
19.7 | 28.3 | |
20.4 | 26.7 | |
19.6 | 20.1 | |
17.8 | 23.3 | |
18.5 | 25.2 | |
18.9 | 22.1 | |
18.3 | 17.7 | |
18.9 | 27.6 | |
19.5 | 20.6 | |
21.95 | 13.7 | |
23.2 | ||
17.5 | ||
20.6 | ||
18 | ||
23.9 | ||
21.6 | ||
24.3 | ||
20.4 | ||
23.9 | ||
13.3 | ||
意思是 | 19.4 | 21.6 |
方差 | 1.4 | 17.1 |
尽管集合2的平均值高于集合1,但我们不能断定集合2对应的总体的平均值高于集合1对应的总体。从19.4到21.6之间的差异仅仅是偶然造成的,还是美术馆收到的所有画作的总体数量确实存在差异?我们通过假设两个样本集的均值相同的零假设来建立问题,并进行t检验来检验假设是否可信。
自从数据 记录不同(n1=10和n2=20),方差也不同,使用不等方差t检验部分中提到的公式计算上述数据集的t值和自由度。
t值为-2.24787。由于比较两个t值时可以忽略减号,因此计算值为2.24787。
自由度值为24.38,由于公式定义要求将值向下舍入到最小可能的整数值,因此减少到24。
可以指定概率级别(α级别、显著性级别、;p )作为接受的标准。在大多数情况下,可以假设5%的值。
使用自由度值24和5%的显著性水平,查看t值分布表得出的值为2.064。将该值与计算值2.247进行比较,表明计算的t值在5%的显著性水平上大于表中的值。因此,可以安全地拒绝均值之间没有差异的无效假设。种群集合具有内在的差异,它们不是偶然的。
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论