写在前面我们从上一集开始了学习对比大于两组数据的统计方法——ANOVA。读了上一篇文章的童鞋想必已经领会了ANOVA的核心思想,对它有了感性的认识。今天我们来讲一下ANOVA的实用招式,比如p值如何计算,有什么前提条件,结果如何解释等问题。这里面很多东西和t检验是相通的,所以有了之前t检验的基础,学习ANOVA会事半功倍。
由于距离上次更新已经三个星期了,可能很多读者已经不记得ANOVA里面总平方和、组间平方和和组内平方和是什么了,这里先简单回顾下。
总平方和大致描绘的就是每个个体的实际数据围绕它们共同性质所决定的理论平均值的波动程度。
总平方和可以分解成两个部分:组间平方和和组内平方和。
组间平方和对应的是各组的平均值之间的差别,而组内平方和则是各数据点与自己所在组的平均值之间的差别。
组内平方和越小,组间平方和越大,组间差异越显著。
先把ANOVA的内功心法记牢了,下面学习招式就会水到渠成。
????
既然ANOVA是一种统计检验的方法,在咱们开始讲如何计算p值之前,首先要理清楚,它的原假设和备择假设是什么。只有先把检验的假设弄清楚了,才能准确地解释检验的结果。
为了方便描述,还是要用请出食堂的三位包子师傅:康师傅、王师傅和格格巫三位。蓝精灵们关心的是三位师傅做的包子大小是不是有显著差异。前边提到,如果分别用t检验对比康师傅和王师傅,王师傅和格格巫,以及康师傅和格格巫做的包子,会容易出现假阳性,即实际没有差异但却检验出差异的情况。所以这里需要用ANOVA。
ANOVA的原假设(即我们通过检验尝试拒绝的假设)是:这三位师傅做的包子平均值相等。
要比较三位师傅做的包子,每位师傅做的包子就是一个总体,因而这里说到的平均值并不是针对每位师傅做的包子的样本平均值,而是每位师傅做的包子的总体的平均值,不要搞混了哦。
下面是一个选择题,大家认为备择假设是什么呢?
1)三位师傅做的包子的平均值不全相等;
2)三位师傅做的包子的平均值全不相等。
这可不是绕口令,不全相等和全不相等的含义可是完全不同的。
正确答案应该是1),也就是说当ANOVA结果显示有统计显著性(比如p值0.05)时,我们可以推断三位师傅做的包子的平均值不全相等。但我们不知道是不是三组都不相等,还是有一位师傅做的包子与其他两位不一致。
????
理解了ANOVA的目的,下面我们可以进一步判断统计显著性,计算p值了。和t检验一样,要计算p值,我们得先引入统计检验量F。
假设蓝精灵们称了n个包子的重量,这些包子来自s位师傅,统计检验量:
看到这里你肯定会疑惑,为什么F的表达式是这样,别着急,看完下面的解释就明白了。
根据我们上一集修炼的心法,大家应该能透过现象看本质,发现统计检验量F不就是个组间平方和与组内平方和的比值再乘以一个系数,系数由样本量,组数决定。组间平方和越大,组内平方和越小,则F值越大,说明统计检验量F越大,组间差异越显著。
爱钻牛角尖的你可能会好奇,为什么分子是组间平方和除以组数减一。
试想下两种情况,我们从同一个总体分布里面抽取20个包子,一种情况是将其随机分成2组,每组10个,另外一个情况是随机分成10组,每组2个。
如果我们分别对上面这两种情况运用ANOVA检验,我们应该得到的p值应该差不太多,且p值都比较大,毕竟我们的设定是所有组的数据来自同一分布,并没有显著差异。如果我们计算组间平方和,会发现第二种情况比第一种情况的平方和大,因为后一种情况下,组内的样本数少,每一组的平均值更容易受样本的随机性波动。如果重复这两组实验很多次,后一种情况算出来的组间平方和平均而言是前一种情况的10-1=9倍,咱这里可以先忽略数学上的推导。
为了能够抵消仅仅因为组数多就导致组间平方和大的倾向,于是要将分子除以(组数s-1)。基于类似的道理,分母组内平方和需要除以n-s。在统计学中又将s-1称为组间自由度,n-s称为组内自由度。当然这只是比较定性的说法,其背后涉及到一些特定的分布,限于篇幅,就先不深入讲了。
????
从统计检验量F如何得到p值呢?如果原假设成立,即所有组的数据来自的总体的平均值相等,在这个假设底下,统计检验量F会服从F分布。
我们之前没有接触过F分布,它和t分布还有正态分布长得都不太一样,F分布只在x0有值,且有一个长长的尾巴,如下图。
图片来源: