小编按:统计分析的陷阱真是让人防不胜防,学了这么久t检验,怎么还有这么大一个坑等着我们!快来一起填坑吧!
????
我们前面系统地梳理了一下t检验的内容,把t检验家底摸了个清。熟练掌握了t检验的你也许以为已经走遍天下都不怕了,当你有这种想法时,就要小心掉到新的坑里面。
咱们先请出我们的蓝精灵朋友们,看看还有哪些不能掉进去的坑。
蓝精灵食堂里面有三个做包子的师傅,康师傅(不做牛肉面改做包子了)、王师傅和格格巫,蓝精灵们觉得有时候吃到的包子大,有时候吃到的包子小,于是就怀疑这差别是不是由于出自不同的包子师傅之手。有了上次抓格格巫偷工减料的经验,蓝笨笨自信满满地跳出来说,只要用t检验就可以知道怎么回事了。为了帮大家理清思路,蓝笨笨分析道:「我们的原假设应该是三位师傅做出来的包子的平均质量没有差别,备择假设是至少有一位师傅包子的质量和其它人不一样。」于是蓝笨笨提议,随机抽取从每位师傅制作的包子里面随机抽取二十个样本,方便起见康师傅的包子样本是A组,王师傅的是B组,格格巫的是C组。蓝笨笨继续说道,如果原假设是正确的,那么分别将A和B组,B和C组,A和C组的包子样本两两进行t检验,应该都没有统计显著性,即p值都应该小于0.05;而如果有其中任何一组有显著性差异,就可以拒绝原假设。乍一听,蓝笨笨的建议确实很有道理。但是它的推理却掉进一个陷阱,这个陷阱就隐藏在p值的含义里面——我们用p值小于0.05作为统计显著性的阈值,是为了控制第一类错误,也称为假阳性错误(即在实际没有显著性差别的情况下检测出显著性差别)的概率在5%以内。
也就是说,即使两组数据并没有什么不同,仅仅是因为随机抽样导致的误差,做次实验,也有5次可以检测出有显著不同。
试想这样一种情况,A、B、C三组其实都是从康师傅的制作的包子里面抽取的随机样本,理论上除了随机抽样导致样本有一些随机浮动之外,没有本质差别。当我们对A、B、C三组进行两两比较的时候,理想的结果应该是没有任何统计显著性。如果有的话,就是假阳性。
下面我们来推理一下发生假阳性(即AB、BC、AC两两比较至少有一次检验结果是显著不同)的概率。
按照惯例我们用p值小于0.05作为单次t检验的显著性阈值,那么,根据p值的定义,每一次检验都有5%的概率检测出两组有显著性差异,三次比较之后至少有一组有显著性差异的概率接近于5%的三倍,也就是15%(更准确的数字应该为1-(1-5%)3=14.3%)。
这种利用对同一组数据进行多次检验来判断是否要拒绝原假设对过程称为多重比较(multiple