解读 SPSS 判别分析的计算过程
ITELLIN
在多元统计分析方法中,多元回归分析使用最普遍,几乎到了快要用滥的程度。但回归
分析要求因变量和自变量的属性为定距以上的变量,如果这个条件不满足,使用起来比较费
劲。在实际工作中,因变量为分类变量,自变量为连续变量的情况比比皆是,如对银行来讲
如何辨别良好信用和不良信用的客户,对电信运营商来讲如何辨别大客户,中小客户,对生
产企业来讲如何判断新产品的速购者和迟购者等等,这些都是我们经常遇见的问题,判别分
析就是解决这类问题的一个优选的统计方法。
现行介绍判别分析方法中,常常见到的有距离判别法,费歇尔判别法,贝叶斯判别法。
这三种方法各有各的产生背景,有不同的使用条件,它们有一个共同的特点就是计算量巨大,
以至于靠手算无法进行。为此现在主流统计软件都把判别分析作为一个专用模块来开发,但
由于软件产生的只是结果,对于判别分析的整个推理过程涉及很少,不利于初次接触判别分
析的人士学习,所以本文准备从具体的计算过程入手,详细解读 SPSS 产生的过程,使得学
习者能够做到知其然而知其所以然。
一、 数据整理
为了便于验证,考虑 g=3 个总体,每个总体容量为 =3 个样品,p=2 个变量的观测值。
in
假定总体有相同的协方差矩阵 ,先验概率分别为
p
3
的判别分析过程来求得费歇尔判别函数得分和贝叶斯的分类函数得分。
0.25,
p
2
=
0.25,
p
1
=
Σ
=
0.50
。利用 SPSS
来自总体 1
,π π π和 的随机样本为
2
3
1 :π 1
X
−⎛
⎜= ⎜
0
⎜
−⎝
2 5
3
1 1
⎞
⎟
⎟
⎟
⎠
2 :π 2
X
0 6
2 4
1
2
⎛
⎜= ⎜
⎜
⎝
⎞
⎟
⎟
⎟
⎠
3 :π 3
X
⎛
⎜
= ⎜
⎜
⎝
-2
1
0
0
-1 -4
⎞
⎟
⎟
⎟
⎠
1n = 3
2n =
3
3n
3=
将以上数据按照 SPSS 对数据格式的要求录入到 SPSS 的数据编辑窗口。如下图所示:
第 1 页,共 26 页
1. 在 SPSS 数 据 编 辑 窗 口 中 点 选 (Analyze ) 中 的 分 类 (Classify ) 进 行 判 别 分 析
(Discriminant…)。
2. 分析时要选择的分析变量如下:
第 2 页,共 26 页
3. 点选统计量按钮,选择描述统计量,矩阵及判别函数系数中的所有选项。
4. 点选分类按钮,将显示和图形中的选项全部选取,先验概率先选择所有组别大小相等,
但本问题是三个组别的先验概率不相等,后面用编写程序的方式更改过来。协方差矩阵
的选项中选择组内协方差矩阵,因为我们假设三个总体的协方差矩阵相同。
第 3 页,共 26 页
5. 点选保存按钮,勾选保存预测的组别,判别得分和各组成员的事后概率三个选项。
6. 点选粘贴按钮,注意红色部分,表示先验概率按照默认方式处理的程序代码。
7. 修改后的程序代码
第 4 页,共 26 页
8. 点选 Run 下的 All 选项,运行该过程。
二、 报表解读
1 案例处理汇总分析
Analysis Case Processing Summary
Unweighted Cases
Valid
Excluded
Missing or out-of-range
group codes
At least one missing
discriminating variable
Both missing or
out-of-range group codes
and at least one missing
discriminating variable
Total
Total
N
9
0
0
0
0
9
Percent
100.0
.0
.0
.0
.0
100.0
案例处理汇总分析,反映的是有效样本量和变量缺失的情况。本案例有效观测量为9个,没
有缺失值。
2 各组统计量描述
Group Statistics
Valid N (listwise)
group
1.00
2.00
3.00
Total
x1
x2
x1
x2
x1
x2
x1
x2
Mean
-1.0000
3.0000
1.0000
4.0000
.0000
-2.0000
.0000
1.6667
Std. Deviation Unweighted Weighted
3.000
3.000
3.000
3.000
3.000
3.000
9.000
9.000
1.00000
2.00000
1.00000
2.00000
1.00000
2.00000
1.22474
3.27872
3
3
3
3
3
3
9
9
Group Statistics 是各组和总体的每个变量的描述统计分析。其中值得关注的是均值一栏,
它是后面计算的基础
第 5 页,共 26 页
本问题假设各组协方差相等。所以各组标准差不应该有很大的变化。
用图型方式来观察,可以看出,各组的均值差异较大,但各组的方差相同。
平均值
3
x2
1
x1
4
x2
0
x1
组二
组三
x2
-2
x1
-1
组一
5
4
3
2
1
0
-1
-2
-3
可以看出 x1 在各组的差异不如 x2 在各组的差异。
标准差
2
2
2
1
1
1
2.5
2
1.5
1
0.5
0
x1
x2
x1
x2
x1
x2
组一
组二
组三
x1 在各组的标准差相同,x2 在各组的标准差也相同。
计算方法:公式
X
n
1
= ∑
n i
1
=
X i
( )
对组 g=1:
x
1
=
(
1
3
X
(1)
+
X
( 2)
+
X
(3)
)
=
(
⎡
⎢
⎣
1
3
2
−
5
) ( ) (
0
3
+
+
)
1
−
1
=
1
3
⎛
⎜
⎝
2 0 1
− + −
5 3 1
+ +
⎞
⎟
⎠
=
⎛
⎜
⎝
1
−
3
⎞
⎟
⎠
⎤
⎥
⎦
x
对组 g=2 和 g=3 的均值向量的解法相同,分别为 2
=
1
⎛ ⎞
⎜ ⎟
4
⎝ ⎠
和
x
3
=
0
2−
⎞
⎟
⎠
⎛
⎜
⎝
第 6 页,共 26 页
x
=
=
=
1
3
1
3
(
⎡
⎢
⎣
(
1
3
)
x
3
(
⎡
⎢
⎣
)
⎤
⎥
⎦
0
2
−
+ +
) ( ) (
1 1
−
3
4
+ +
x x
1
2
1 1 0
− + +
3 4 2
+ −
总体均值向量为
⎛ ⎞
0
⎜ ⎟
5
⎜ ⎟
⎜ ⎟
3
⎝ ⎠
标准差为 5 中各组协方差矩阵的主对角线方差的平方根。
3 各组均值相等检验
)
⎤
⎥
⎦
=
⎛
0
= ⎜
1.66
7
⎝
⎞
⎟
⎠
Tests of Equality of Group Means
Wilks'
Lambda
.500
.279
x1
x2
F
3.000
7.750
df1
2
2
df2
6
6
Sig.
.125
.022
这张表是预测变量在各组间均值是否相等的假设检验。包含 Wilks' lambda,F 统计量和它
的自由度和显著性水平。原假设:x1 在三组中的平均值相同。 x2 在三组中均值相同。
Wilks' lambda 是组内平方和与总平方和的比,值的范围在 0 到 1 之间。值越小表示组间有
很大的差异。值接近 1 表示没有组间差异。
F 统计量是组间均方与组内均方的比。有两个自由度,分子为 df1 分母为 df2。分子和分母
自由度用来得到观测显著性水平。如果显著性水平值很小(比如说小于 0.10)表示组间差
异显著。如果显著性水平较大(比如说大于 0.10)表示组间差异不显著。
本例中 1x 的 值为 0.125,表明
p
1x 在各组间的差异不显著,而 2x 的 值为 0.022,说明
p
2x
在各组间差异显著。
具体数字可由ONE-AVONA过程得来。对x1来讲,其Wilks' lambda值为6/12=0.5,对x2来讲
其Wilks' lambda值为24/86=0.279。F 统计量的第一个自由度df1=g-1=3-1=2,第二个自由度
df2=n-g=9-3=6。概率值可用SPSS的Sig.F 函数计算,利用COMPUTE p1 = SIG.F(3,2,6) .
语句,即可得到其值为0.125 ; COMPUTE p2 = SIG.F(7.75,2,6) .得到其值为0.022 。
4 联合组内协方差矩阵
Pooled Within-Groups Matricesa
Covariance
Correlation
x1
x2
x1
x2
x1
1.000
-.333
1.000
-.167
x2
-.333
4.000
-.167
1.000
a.
The covariance matrix has 6 degrees of freedom.
第 7 页,共 26 页
联合组内协方差阵显示一个协方差阵和一个相关矩阵。上半部分是联合组内协方差矩阵,由
3 组的组内协方差阵相加构成。
1
−
n g
1
1
−
4
1
−
pS
=
2
6
⎡
⎢
⎣
⎛
⎜
⎝
[
3
]
S
=
1
9 3
−
3
1
−
⎛
⎞
⎟
⎜
1 12
−
⎠
⎝
=
2
S
1
+
2
S
2
+
2
S
]
3
=
1
0.333
−
0.333⎞
−
⎟
4
⎠
[
(
n
1
−
1)
S
1
+
(
n
2
−
1)
S
2
+
(
n
3
−
1)
+
⎞
⎟
⎠
1
1
−
⎛
⎜
⎝
1
−
4
⎞
⎟
⎠
+
1 1
1 4
⎛
⎜
⎝
⎞
⎟
⎠
⎤
⎥
⎦
=
1
3
⎛
⎜
⎝
S S S
,
1
,
5
2
其中
过换算才能能到组内W ,即将上述矩阵乘以自由度 6 便可得到W 。
分别为
各组的协方差阵。注意,SPSS 没有列出组内 SSCP 阵W ,要经
3
下半部的联合组内相关矩阵是由联合组内协方差矩阵变换而来的。公式为
−
1
2
R D S D
=
p
−
1
2
,
pS
为上面的联合组内协方差阵,
1
2D−
为 的对角线元素的平方根的倒数组成的对角矩阵。
pS
−
1
3
×
如
1
= −
0.167
4
此处的联合组内相关矩阵同总体相关矩阵有差异,因为它们依据的转换矩阵不同,一个是依
据联合组内协方差阵,一个是依据总协方差阵。
5 各组协方差矩阵
Covariance Matricesa
group
1.00
2.00
3.00
Total
x1
x2
x1
x2
x1
x2
x1
x2
x1
1.000
-1.000
1.000
-1.000
1.000
1.000
1.500
.125
x2
-1.000
4.000
-1.000
4.000
1.000
4.000
.125
10.750
a.
The total covariance matrix has 8 degrees of freedom.
各组内及总体协方差矩阵。总体协方差阵如果乘以自由度 8 便是总体 SSCP 阵。
判别分析的假设之一就是各组协方差阵相同。方差显示在主对角线上,协方差为各组交叉处。
使用协方差阵和组内散布图可以帮助确定检验协方差相等的假设。
第 8 页,共 26 页