- 卡方检验;
卡方检验是一种用途很广的计数资料的假设检验方法。
它属于非参数检验的范畴,主要是比较两个及两个以上样本率( 构成比)以及两个分类变量的关联性分析。
其根本思想就是在于比较理论频数和实际频数的吻合程度或拟合优度问题。
它在分类资料统计推断中的应用,包括:两个率或两个构成比比较的卡方检验;
多个率或多个构成比比较的卡方检验以及分类资料的相关分析等。
- 卡方检验的核心思想:
**卡方检验是以χ2分布为基础的一种常用假设检验方法,
它的无效假设H0是:观察频数与期望频数没有差别。
**
**该检验的基本思想是:首先假设H0成立,基于此前提计算出χ2值,它表示观察值与理论值之间的偏离程度。
根据χ2分布及自由度可以确定在H0假设成立的情况下获得当前统计量及更极端情况的概率P。
如果P值很小,说明观察值与理论值偏离程度太大,应当拒绝无效假设,表示比较资料之间有显著差异;
否则就不能拒绝无效假设,尚不能认为样本所代表的实际情况和理论假设有差别。
**
- 卡方值的计算与意义:
χ2值表示观察值与理论值之问的偏离程度。计算这种偏离程度的基本思路如下。
(1)设A代表某个类别的观察频数,E代表基于H0计算出的期望频数,A与E之差称为残差。
(2)显然,残差可以表示某一个类别观察值和理论值的偏离程度,但如果将残差简单相加以表示各类别观察频数与期望频数的差别,则有一定的不足之处。因为残差有正有负,相加后会彼此抵消,总和仍然为0,为此可以将残差平方后求和。
(3)另一方面,残差大小是一个相对的概念,相对于期望频数为10时,期望频数为20的残差非常大,但相对于期望频数为1 000时20的残差就很小了。考虑到这一点,人们又将残差平方除以期望频数再求和,以估计观察频数与期望频数的差别。
进行上述操作之后,就得到了常用的χ2统计量,由于它最初是由英国统计学家Karl Pearson在1900年首次提出的,因此也称之为Pearson χ2,其计算公式为
\[\chi^{2}=\sum \frac{(A-E)^{2}}{E}=\sum_{i=1}^{K} \frac{\left(A_{i}-E_{i}\right)^{2}}{E_{i}}=\sum_{i=1}^{K} \frac{\left(A_{i}-n p_{i}\right)^{2}}{n p_{i}} \quad(i=1,2,3, \ldots, k) \]
其中,Ai为i水平的观察频数,Ei为i水平的期望频数,n为总频数,pi为i水平的期望频率。i水平的期望频数Ei等于总频数n×i水平的期望概率pi,k为单元格数。当n比较大时,χ2统计量近似服从k-1(计算Ei时用到的参数个数)个自由度的卡方分布。
由卡方的计算公式可知,当观察频数与期望频数完全一致时,χ2值为0;观察频数与期望频数越接近,两者之间的差异越小,χ2值越小;反之,观察频数与期望频数差别越大,两者之间的差异越大,χ2值越大。换言之,大的χ2值表明观察频数远离期望频数,即表明远离假设。小的χ2值表明观察频数接近期望频数,接近假设。因此,χ2是观察频数与期望频数之间距离的一种度量指标,也是假设成立与否的
- 卡方检验的样本量要求
卡方分布本身是连续型分布,但是在分类资料的统计分析中,显然频数只能以整数形式出现,因此计算出的统计量是非连续的。只有当样本量比较充足时,才可以忽略两者间的差异,否则将可能导致较大的偏差具体而言,一般认为对于卡方检验中的每一个单元格,要求其最小期望频数均大于1,且至少有4/5的单元格期望频数大于5,此时使用卡方分布计算出的概率值才是准确的。如果数据不符合要求,可以采用确切概率法进行概率的计算。
- 适用于四格表应用条件:
1. 随机样本数据。两个独立样本比较可以分以下3种情况:
(1)所有的理论数T≥5并且总样本量n≥40,用Pearson卡方进行检验。(正常的Pearson检验)
(2)如果理论数T<5但T≥1,并且n≥40,用连续性校正的卡方进行检验。(校正的Pearson)
(3)如果有理论数T<1或n<40,则用Fisher’s检验。(如果判断的理论数的数量不符合Pearson卡方的条件,可以查看SAS给出的结果中的Fisher's检验)
2. 卡方检验的理论频数不能太小。
- R×C表卡方检验应用条件:
(1)R×C表中理论数小于5的格子不能超过1/5;
(2)不能有小于1的理论数。如果实验中有不符合R×C表的卡方检验,可以通过增加样本数、列合并来实现。
- 卡方检验最常见的用途就是考察某无序分类变量各水平在两组或多组间的分布是否一致实际上,除了这个用途之外.卡方检验还有更广泛的应用。具体而言,其用途主要包括以下几个方面:
(1)检验某个连续变量的分布是否与某种理论分布相一致。如是否符合正态分布、是否服从均匀分布、是否服从Poisson分布等。
(2)检验某个分类变量各类的出现概率是否等于指定概率。如在36选7的彩票抽奖中,每个数字出现的概率是否各为1/36;掷硬币时,正反两面出现的概率是否均为0.5。
(3)检验某两个分类变量是否相互独立。如吸烟(二分类变量:是、否)是否与呼吸道疾病(二分类变量:是、否)有关;产品原料种类(多分类变量)是否与产品合格(二分类变量)有关。
(4)检验控制某种或某几种分类因素的作用以后,另两个分类变量是否相互独立。如在上例中,控制性别、年龄因素影响以后,吸烟是否和呼吸道疾病有关;控制产品加工工艺的影响后,产品原料类别是否与产品合格有关。
(5)检验某两种方法的结果是否一致。如采用两种诊断方法对同一批人进行诊断,其诊断结果是否一致;采用两种方法对客户进行价值类别预测,预测结果是否一致。
步骤:
(1) 原假设H0: 观察频数与期望频数无差别,; 备择假设H1: 2观察频数与期望频数有差别;
(2)根据数据计算卡方值、P值(右尾面积); 若P值≤α,则拒绝H0; 若P值>α,则接受H0.
2、 下面对type 和origin 两个变量进行卡方检验;
- 解释一下产地不同的汽车类型是否有差异先假设没有差异;
proc freq data=sashelp.cars; tables type*origin /chisq; run;
- 得到的结果概率值小于0.001 ,说明两者有显著性差异应该拒绝原假设。;
- 最终的结论:产地不同的汽车类型是有差异的。;
SAS Connection established. Subprocess id is 24590
SAS Output
The SAS System
The FREQ Procedure
Frequency
Percent
Row Pct
Col Pct
Table of Type by Origin
Type
Origin
Asia
Europe
USA
Total
Hybrid
3
0.70
100.00
1.90
0
0.00
0.00
0.00
0
0.00
0.00
0.00
3
0.70
SUV
25
5.84
41.67
15.82
10
2.34
16.67
8.13
25
5.84
41.67
17.01
60
14.02
Sedan
94
21.96
35.88
59.49
78
18.22
29.77
63.41
90
21.03
34.35
61.22
262
61.21
Sports
17
3.97
34.69
10.76
23
5.37
46.94
18.70
9
2.10
18.37
6.12
49
11.45
Truck
8
1.87
33.33
5.06
0
0.00
0.00
0.00
16
3.74
66.67
10.88
24
5.61
Wagon
11
2.57
36.67
6.96
12
2.80
40.00
9.76
7
1.64
23.33
4.76
30
7.01
Total
158
36.92
123
28.74
147
34.35
428
100.00
Statistics for Table of Type by Origin
Statistic
DF
Value
Prob
Chi-Square
10
35.6659
<.0001
Likelihood Ratio Chi-Square
10
42.1254
<.0001
Mantel-Haenszel Chi-Square
1
0.0808
0.7762
Phi Coefficient
0.2887
Contingency Coefficient
0.2773
Cramer's V
0.2041
Sample Size = 428
我们使用sas软件中预置的数据集cars,针对其中的两个变量Type和Origin进行卡方检验,原假设来自不同产地的汽车的类型相同,根据卡方检验给出的结果进行分析,样本的数量以及理论数的大小限制条件,满足卡方检验,自由度为10=(6-1)*(3-1), 得到的卡方值为35.6659,概率Porb为小于0.001,拒绝原假设H0,接受H1 来自不同产地的汽车的类型在95%的置信度下来源不一致。