实用回归分析第四版
第一章 回归分析概述
1.3 回归模型中随机误差项ε的意义是什么?
答:ε为随机误差项,正是由于随机误差项的引入,才将变量间的关系描述为一
个随机方程,使得我们可以借助随机数学方法研究 y 与 x1,x2…..xp 的关系,由
于客观经济现象是错综复杂的,一种经济现象很难用有限个因素来准确说明,随
机误差项可以概括表示由于人们的认识以及其他客观原因的局限而没有考虑的
种种偶然因素。
1.4 线性回归模型的基本假设是什么?
答:线性回归模型的基本假设有:1.解释变量 x1.x2….xp 是非随机的,观测值
xi1.xi2…..xip 是常数。2.等方差及不相关的假定条件为{E(εi)=0 i=1,2….
Cov(εi,εj)={σ^2
3.正态分布的假定条件为相互独立。4.样本容量的个数要多于解释变量的个数,
即 n>p.
第二章 一元线性回归分析
思考与练习参考答案
2.1 一元线性回归有哪些基本假定?
答: 假设 1、解释变量 X 是确定性变量,Y 是随机变量;
假设 2、随机误差项ε具有零均值、同方差和不序列相关性:
E(εi)=0
Var (εi)=2
Cov(εi, εj)=0
i=1,2, …,n
i=1,2, …,n
i,j= 1,2, …,n
i≠j
假设 3、随机误差项ε与解释变量 X 之间不相关:
Cov(Xi, εi)=0
i=1,2, …,n
假设 4、ε服从零均值、同方差、零协方差的正态分布
εi~N(0, 2 )
i=1,2, …,n
2.3 证明(2.27 式),ei =0 ,eiXi=0 。
Q
证明:
n
1
(
Y
i
2
)ˆ
Y
i
n
1
(
Y
i
ˆ(
ˆ
1
0
X
i
2
))
其中:
ˆ
Y
i
ˆ
ˆ
1
0
X
i
e
i
ˆ
Y Y
i
i
Q
ˆ
0
0
Q
ˆ
1
0
即:
2.5 证明 0
ei =0 ,eiXi=0
ˆ 是β0 的无偏估计。
证明:
E
)ˆ(
0
(
YE
ˆ
1
X
)
E
1[
n
n
i
1
Y
i
X
n
i
1
X
X
i
L
xx
Y
i
)
E
[
n
i
1
1(
n
X
X
X
i
L
xx
)
Y
i
]
E
[
n
i
1
1(
n
X
X
X
i
L
xx
)(
1
0
X
i
i
)]
E
[
0
2.6 证明
证明:
Var
)ˆ(
0
1(
n
n
i
1
1(
n
X
X
X
i
L
xx
)
0
]
i
n
i
1
1(
n
X
X
X
i
L
xx
)
E
(
0
)
i
2
X
X
i
X
2
2
2
)
1(
n
n
i
1
2
)
X
L
xx
Var
)ˆ(
0
Var
[
n
i
1
1(
n
X
X
X
i
L
xx
)
Y
i
]
[
n
i
1
1(
n
X
X
X
i
L
xx
2
)
Var
(
1
0
X
i
i
)]
n
i
1
)1[(
n
2
2
X
X
(
X
X
i
nL
xx
X
X
i
L
xx
2
])
2
1[
n
2.7 证明平方和分解公式:SST=SSE+SSR
2
2
]
X
L
xx
2
Y
Y
[
i
)ˆ
Y
i
ˆ(
Y
i
Y
证明:
SST
n
i
1
n
1i
n
i
i
1
Y
ˆ
Y
i
YYˆ
Y
i
2
2
n
i
1
Y
i
n
i
1
Y
i
n
1i
2
2
]
Y
)ˆ
Y
i
i
2
ˆ)(
ˆ
YY
i
i
Y
n
i
1
)Yˆ
i
2
SSR
SSE
2.8 验证三种检验的关系,即验证:
(1)
t
r
(
n
1
)2
2
r
;(2)
F
1/
SSR
/(
n
SSE
)2
L
2
ˆ
1
xx
ˆ
2
2
t
证明:(1)
t
ˆ
L
xx
ˆ
ˆ
ˆ
2
L
xx
yy
L
xx
(
SSE L n
r L
(
xx
2))
r L
yy
(
SSE n
2)
2
n
r
SSE SST
r
n
1
2
2
r
(2)
SSR
n
i
1
ˆ(
y
i
2
y
)
n
i
1
ˆ
ˆ
x
1
0
(
i
2
y
)
n
i
1
(
y
ˆ
(
1
x
i
x
)
2
y
)
n
i
1
ˆ
(
1
(
x
i
2
x
))
ˆ
2
1
L
xx
F
SSR
/(
SSE n
/1
2)
ˆ
2
xxL
1
ˆ
2
2
t
2.9 验证(2.63)式:
)e(Var
i
(
1
x(
i
1
n
2
)x
2
)
L
xx
证明:
ˆ
) var(
var(
)
var(
var(
e
y
y
i
i
i
ˆ
ˆ
) 2cov(
) var(
var(
,
y y
y
x
1
0
i
i
i
2
(
(
)
1
x
x
x
i
i
n
2
] 2
2
y
i
[
[
2
ˆ
)
y
i
L
2
xx
(
[1
1
n
x
)
L
xx
2
]
1
n
x
i
)
ˆ
,
y y
i
i
))
x
) 2cov(
ˆ
(
x
1
i
2
)
x
L
]
xx
Cov
(
y
,
i
其中:
Cov
(
y
x
i
x
))
Cov
(
y
,
y
i
y
i
)
(
x
i
x
)
Cov
(
y
i
1
n
2
2
x
)
2
(
x
i
1(
n
L
xx
y
1,
n
x
(
i
(ˆ
1
n
1
L
i
i
xx
(ˆ,
1
)
x
y
i
x
i
x
))
)
i
(
y
i
L
xx
)
,
Cov
(
x
n
))
x
2
1
2
i
ˆ
2
2.10 用第 9 题证明
证明:
2
ei
2
n
是2 的无偏估计量
1
2
n
i
1
(
E y
i
2
ˆ
y
)
n
var(
e
i
)
1
2
n
n
i
1
[1
2
1
1
n
n
1
i
(
x
i
(
E e
2
i
)
2
x
)
2
]
L
xx
2)
2
2
E
ˆ
2
(
)
n
1
n
2
1 (
2
n
1
i
n
n
第三章
1.一个回归方程的复相关系数 R=0.99,样本决定系数 R2=0.9801,我
们能判断这个回归方程就很理想吗?
答:不能断定这个回归方程理想。因为:
1. 在样本容量较少,变量个数较大时,决定系数的值容易接近 1,
而此时可能 F 检验或者关于回归系数的 t 检验,所建立的回归方
程都没能通过。
2. 样 本 决 定 系 数 和 复 相 关 系 数 接 近 于 1 只 能 说 明 Y 与 自 变 量
X1,X2,…,Xp 整体上的线性关系成立,而不能判断回归方程和每
个自变量是显著的,还需进行 F 检验和 t 检验。
3. 在应用过程中发现,在样本容量一定的情况下,如果在模型中增
加解释变量必定使得自由度减少,使得 R2 往往增大,因此增加解
释变量(尤其是不显著的解释变量)个数引起的 R2 的增大与拟合
好坏无关。
ˆ
*
j
jj
ˆ
j
,
j
1,2,...,
p
L
L
yy
L
其中:
jj
n
(X
ij
i
1
X
j
2
)
2.被解释变量Y 的期望值与解释变量
XX
,
1
,
2
的线性方程为:
kX
,
( )
E Y
2
X
0
1
1
X
2
k
X
k
(3-2)
称为多元总体线性回归方程,简称总体回归方程。
对于 n 组观测值
XXY
i
1
i
,
,
,
,
(
iX
ki
2
i
,2,1
),
n
,其方程组形式为:
Y
i
1
0
X
1
i
2
X
2
i
k
X
ki
i
,(
i
1,2,
, )
n
(3-3)
即
Y
1
Y
2
Y
n
其矩阵形式为
0
1
1
0
X
11
X
12
2
2
X
X
21
22
k
k
X
k
X
1
k
2
1
2
1
0
X
1
n
2
X
2
n
k
X
kn
n
Y
1
Y
2
nY
=
1
1
1
11
X
X
12
X
1
n
21
X
X
22
X
2
n
1
2
k
X
X
k
X
kn
0
1
2
k
+
1
2
n
即
(3-4)
其中
1nY
Y Xβ μ
Y
1
Y
2
nY
为被解释变量的观测值向量;
(knX
)1
1
1
1
11
X
X
12
X
1
n
21
X
X
22
X
2
n
1
2
k
X
X
k
X
kn
为解释变
β
量的观测值矩阵; (
k
1) 1
0
1
2
k
为总体回归参数向量; 1n
μ
1
2
n
为随机误差项向量。
多元回归线性模型基本假定:课本 P57
第四章
4.3 简述用加权最小二乘法消除一元线性回归中异方差性的思想与
方法。
答:普通最小二乘估计就是寻找参数的估计值使离差平方和达极小。其中每个平
方项的权数相同,是普通最小二乘回归参数估计方法。在误差项等方差不相关的
条件下,普通最小二乘估计是回归参数的最小方差线性无偏估计。然而在异方差
的条件下,平方和中的每一项的地位是不相同的,误差项的方差大的项,在残差
平方和中的取值就偏大,作用就大,因而普通最小二乘估计的回归线就被拉向方
差大的项,方差大的项的拟合程度就好,而方差小的项的拟合程度就差。由 OLS
求出的仍然是的无偏估计,但不再是最小方差线性无偏估计。所以就是:对较大
的残差平方赋予较小的权数,对较小的残差平方赋予较大的权数。这样对残差所
提供信息的重要程度作一番校正,以提高参数估计的精度。
加权最小二乘法的方法:
Q
w
N
i
1
ˆ
w
1
=
i
(
w y
N
i
1
i
ˆ
y
i
2
)
(
w y
i
i
ˆ
ˆ
x
1
0
2
)
i
(
w x
i
i
_
x
w
y
i
_
y
)
w
N
i
1
)(
(
x
i
_
x
w
2
)
N
i= 1
_
x
w
0
w
w
i
_
y
w
1
i
ˆ
w
1
kx
i
i
2
2
2
1
kx
i
2
表示
1
2
x
i
2
或
i
m
kx w
i
,
i
1
m
x
i
4.4 简述用加权最小二乘法消除多元线性回归中异方差性的思想与方
法。
答:运用加权最小二乘法消除多元线性回归中异方差性的思想与一元线性回
归的类似。多元线性回归加权最小二乘法是在平方和中加入一个适当的权数 iw ,
以调整各项在平方和中的作用,加权最小二乘的离差平方和为:
Q
w
(
p
,
,
,
1
0
)
n
i
1
(
yw
i
i
1
0
x
1
i
p
x
ip
2
)
(2)
加权最小二乘估计就是寻找参数
,
p
0 的估计值
,
,
1
ˆ,
ˆ
1
w
0
使式(2)
ˆ,
pw
,
w
的离差平方和 wQ 达极小。所得加权最小二乘经验回归方程记做
ˆ
y
w
ˆ
ˆ
1
w
0
x
1
w
ˆ
pw
x
p
(3)
多元回归模型加权最小二乘法的方法:
首先找到权数 iw ,理论上最优的权数 iw 为误差项方差 2
i 的倒数,即
iw
1
2
i
(4)
误差项方差大的项接受小的权数,以降低其在式(2)平方和中的作用; 误
差项方差小的项接受大的权数,以提高其在平方和中的作用。由(2)式求出的
加权最小二乘估计
计。
ˆ,
ˆ
1
w
0
就是参数
ˆ,
pw
,
w
,
p
0 的最小方差线性无偏估
,
,
1
一个需要解决的问题是误差项的方差 2
i 是未知的,因此无法真正按照式(4)
选取权数。在实际问题中误差项方差 2
i 通常与自变量的水平有关(如误差项方差
2
i 随着自变量的增大而增大),可以利用这种关系确定权数。例如 2
i 与第 j 个自
变量取值的平方成比例时, 即 2
i =k 2
ijx 时,这时取权数为
w
i
1
2
x
ij
(5)
更一般的情况是误差项方差 2
i 与某个自变量 jx (与|ei|的等级相关系数最大
的自变量)取值的幂函数 m
ijx 成比例,即 2
i =k m
ijx ,其中 m 是待定的未知参数。此
时权数为
w
i
1
x
m
ij
(6)
这时确定权数 iw 的问题转化为确定幂参数 m 的问题,可以借助 SPSS 软件解决。
第五章
5.3 如果所建模型主要用于预测,应该用哪个准则来衡量回归方程的优劣?
答:如果所建模型主要用于预测,则应使用 pC 统计量达到最小的准则来衡量回
归方程的优劣。
5.4 试述前进法的思想方法。
答:前进法的基本思想方法是:首先因变量 Y 对全部的自变量 x1,x2,...,xm 建立
m 个一元线性回归方程, 并计算 F 检验值,选择偏回归平方和显著的变量(F 值
最大且大于临界值)进入回归方程。每一步只引入一个变量,同时建立 m-1 个
二元线性回归方程,计算它们的 F 检验值,选择偏回归平方和显著的两变量变量
(F 值最大且大于临界值)进入回归方程。在确定引入的两个自变量以后,再引
入一个变量,建立 m-2 个三元线性回归方程,计算它们的 F 检验值,选择偏回
归平方和显著的三个变量(F 值最大)进入回归方程。不断重复这一过程,直到
无法再引入新的自变量时,即所有未被引入的自变量的 F 检验值均小于 F 检验
临界值 Fα(1,n-p-1),回归过程结束。
5.5 试述后退法的思想方法。
答:后退法的基本思想是:首先因变量 Y 对全部的自变量 x1,x2,...,xm 建立一个
m 元线性回归方程, 并计算 t 检验值和 F 检验值,选择最不显著(P 值最大且大
于临界值)的偏回归系数的自变量剔除出回归方程。每一步只剔除一个变量,再
建立 m-1 元线性回归方程,计算 t 检验值和 F 检验值,剔除偏回归系数的 t 检
验值最小(P 值最大)的自变量,再建立新的回归方程。不断重复这一过程,直
到无法剔除自变量时,即所有剩余 p 个自变量的 F 检验值均大于 F 检验临界值 F
α(1,n-p-1),回归过程结束。
第六章
消除多重共线性的方法
7.2 岭回归的定义及统计思想是什么?
答:岭回归法就是以引入偏误为代价减小参数估计量的方差的一种回归方法,其
统计思想是对于(X’X)-1 为奇异时,给 X’X 加上一个正常数矩阵 D, 那么 X’X+D
接近奇异的程度就会比 X′X 接近奇异的程度小得多,从而完成回归。但是这样
的回归必定丢失了信息,不满足 blue。但这样的代价有时是值得的,因为这样可
以获得与专业知识相一致的结果。
7.3 选择岭参数 k 有哪几种方法?
答:最优 k 是依赖于未知参数和 2 的,几种常见的选择方法是: