χ² - 检验
读作“卡方检验”。它用来检验盒子的组成成分。
举一个书本中的习题:
某项有关加州 Alameda 县的大陪审团的研究,比较了陪审团成员们与全体人口之间的统计特征,目的是查看陪审团成员们是否具有代表性。这里是一份关于年龄方面的结果。(仅考虑21岁和以上的人;县年龄分布由公共卫生部的数据而得知。)
这66名陪审团成员是从 Alameda 县的(21岁及以上)人口总体中随机选取的吗?
年龄 | 全县的百分数 | 陪审员人数 | 期望人数 |
21到40 | 42 | 5 | 27.7 |
41到50 | 23 | 9 | 15.2 |
51到60 | 16 | 19 | 10.6 |
61及以上 | 19 | 33 | 12.5 |
—— | —— | —— | |
总数 | 100 | 66 | 66 |
答:
如果是作随机有放回抽取,盒子应该看上去是这样的:
从表中可以看到,4类陪审员人数距离期望值都有很大差距。
本检验中:
【原假设】认为陪审团构成反映了县人口的基本构成,就等于我们承认陪审团成员是从上面的盒子中随机有放回地抽取而来,而每一类成员数量与期望值的差仅仅是机会变异造成的。
【备选假设】不承认上述观点,认为差异是客观存在的,否认了陪审员是在县人口总体中随机抽取的。
卡方检验能很好解决这个问题。
(1)计算卡方统计量
χ² = ∑ [(观察频数 - 期望频数)² / 期望频数 ]
表中有几行,公式中就有几项,对于本题,有:
χ² = (27.7-5)² / 27.7 + (15.2-9)² / 15.2 + (10.6-19)² / 10.6 + (12.5-33)² / 12.5 = 61.4
(2)计算卡方检验的自由度
自由度 = χ² 中的项数 - 1
对于本题,有:
自由度 = 3
(3)计算显著性P
对于卡方检验,P 近似地等于 χ² 统计量观察值以右,适当自由度的 χ² 曲线下面的面积。
查表可知,自由度为 3 的卡方曲线当统计量为 11.34 时,已经是高度显著了(1%),而本题中的统计量高达 61.4。毫无疑问,应当拒绝原假设,陪审团成员并不能有效代表全县居民。
χ² 还可以用来检验随机变量的独立性。
下表是在 Wyoming 1988 年 3 月现场人口调查中 25-29 岁人口的婚姻状态交叉统计列表。请问 Wyoming 居民的性别与他/她的婚姻状态是相互独立的吗?
男人 | 女人 | |
从未结过婚 | 21 | 9 |
已婚 | 20 | 39 |
丧偶 / 离异 / 分居 | 7 | 7 |
答:
这是一张 3 × 2 的表格。
一般地,在研究两个变量之间的关系时,若其中一个有 m 个值,另一个有 n 个值,则需要一张 m × n 的表。
行和列的总数:
男人 | 女人 | 总数 | |
从未结过婚 | 21 | 9 | 30 |
已婚 | 20 | 39 | 59 |
丧偶 / 离异 / 分居 | 7 | 7 | 14 |
总数 | 48 | 55 | 103 |
根据上表,从未结过婚的样本百分数是:
30 / 103 = 29.1%
男人总数是 48,如果婚姻状态与性别相互独立,则男人中从未结婚的期望人数是:
48 × 29.1% = 14.0
同理可以计算出其他统计量的期望值。
观察与期望的频数对比:
男人 | 男人的期望 | 女人 | 女人的期望 | |
从未结过婚 | 21 | 14.0 | 9 | 16.0 |
已婚 | 20 | 27.5 | 39 | 31.5 |
丧偶 / 离异 / 分居 | 7 | 6.5 | 7 | 7.5 |
(1)计算卡方统计量
χ² = ∑ [(观察频数 - 期望频数)² / 期望频数 ] = 10.5
(2)计算卡方检验的自由度
当检验一张 m × n 的表(不具有有关概率的其他约束)中的独立性时,有
(m-1) × (n-1 )个自由度。
对于本题,有:
自由度 = (3-1)× (2-1) = 2
(3)计算显著性P
通过查表,对于自由度为 2 的卡方曲线,当 χ² = 10.5 时,其 P < 1%,为高度显著。所以,我们认为在 1988 年 3 月的 Wyoming,居民的性别与其婚姻状态具有相关性。
显著性检验的深入思考
(1)显著性 ≠ 重要性
假设在美国,有调查人员试图比较大城市和农村的 6-9 岁儿童的 WISC (韦克斯勒儿童智力量表)词汇量等级得分。他们分别取 2500 个城市儿童和 2500 个农村儿童的简单随机样本。大城市儿童平均得分 26,农村儿童平均得分 25, SD 都是 10。这一分之差意味着什么?
答:
城市儿童平均得分的 SE = 10 / SquareRoot(2500) = 0.2;
农村儿童平均得分的 SE = 10 / SquareRoot(2500) = 0.2;
城市儿童与农村儿童平均得分之差的 SE = SquareRoot( 0.2² + 0.2² ) ≈ 0.3。故
Z = 1 / 0.3 = 3.3
P ≈ 5 / 10000
检验结果为高度显著,6-9 岁城市儿童与农村儿童之间的 WISC 词汇量测试具有差异。
上面的数学计算没有任何问题,一个教育局官员拿到统计报告后可以考虑向农村学校投入更多经费了。
但是真的有必要吗?
WISC 中有 40 个单词是儿童必须掌握的,正确解释得 2 分,部分解释得 1分。因此 1 分的得分差距只等于 40 单词中有 1 个是部分理解。而这不能成为教育改革的坚实基础。
所以,高度显著的统计数据只能体现出差异的明显性,但并不解释差异的含义是什么。
(2)显著性检验不回答“为什么?”
曾经有这样一个实验:
为了检验第六感是否存在,有人设计了一个机器,这个机器能够分别以 25% 的概率在屏幕上输出 4 个图形。实验要求志愿者在每次显示图形之前通过对应的按钮选择将要出现的图形。
在 7500 次试验中志愿者猜中 2006 次,相比之下期望猜中次数是 0.25 × 7500 = 1875,差是 2006 - 1875 = 131,Z ≈ 3.5,P ≈ 2/10000 (单尾)。这说明什么?
这样的检验结果很难解释成机会变异。难道真的有第六感?深入考察后发现,这个机器的随机数发生器有一个缺陷:它很少在一排里连续两次挑中同一个目标。在实验中,不排除有志愿者观察到这个细微的规律并利用它改善猜测结果。
(3)显著性检验的适用范围
有如下统计数据(虚构):
2010年底淘宝上的注册买家共 5.67 亿人,其中 65.6% 为女性;2015年底淘宝上的注册买家共 7.89 亿人,其中 61.9% 为女性。问这两个百分比之差统计显著吗?
做这样一个统计检验毫无意义。因为我们已经获得了全量数据,统计结果中不存在机会变异。即使统计过程中存在误差,也无法通过盒子模型来体现。所以,女性用户的比例在下降是明显的、实际的。
如果显著性检验是基于整个总体的数据,请小心一点
另一个例子:
某大学研究生部试图比较当前全校研究生的男女录取率。当年某研究生专业的实际情况如下:825名男生申请,61.7%被录取、108名女生申请,82.4%被录取。男女录取率之间的差距统计显著吗?
如果在这些数据上做 Z-检验,结果是没有意义的。因为样本集合具有偏性,或者说某专业的录取情况并不能反映全校的情况。通常把这样具有偏性的样本叫做方便样本。
如果显著性检验基于一个方便的样本,请小心一点。
显著性检验的适用情况可以总结为:
(1)样本选择可以类比成从一个盒子中抽取卡片的过程
(2)盒子中的卡片从比例上反映了总体数据