4
统计教育
2006 年第 12 期
缺失数据的多重插补方法
文/ 乔丽华 傅德印
摘要: 插 补 法 是 对 缺 失 数 据 的 调 整 方 法, 多 重 插 补
迄今为止, 学术界已提出并发展了 30 多种插补 方
弥补了单一插补的缺陷, 采用一系列可能的数据集来填
充每一个缺失数据值, 反映了缺失数据的不确定性。本
文介绍了多重插补程序的三种数据插补方法: 回归预测
法。在抽样调查中应用的主要是单一插补和多重插补。
单一插补指对每个缺失值, 从其预测分布中抽取一
个 值 填 充 缺 失 值 后 , 使 用 标 准 的 完 全 数 据 分 析 进 行 处
法 、倾 向 得 分 法 和 蒙 特 卡 罗 的 马 氏 链 方 法 , 并 且 对 多 重
插 补 的 插 补 效 果 进 行 推 断 , 指 出 多 重 插 补 存 在 的
理。单一插补方法大致可以归为两类: 随机插补和确定
性插补, 具体包括: 均值插补、热卡插补、冷卡插补、回归
问 题 。
关键词: 多重插补; 缺失数据
一、引言
在 数 据 处 理 和 数 据 分 析 中 经 常 会 出 现 缺 失 数 据
(missing data )或 不 完 全 数 据 ( incomplete data ) , 从 抽 样
调查的角度, 把这些数据归结为无回答数据集。一般把
无 回 答 分 为“单 位 无 回 答 ”和“项 目 无 回 答 ”。“项 目 无
回 答 ”是 指 被 调 查 单 位 虽 然 接 受 了 调 查 , 但 只 回 答 了 其
中的一部分而非全部的问题, 或者对某些项目提供的资
料是无用的。对于“项目无回答”, 如果重新调查来获得
准 确 数 据 , 会 浪 费 大 量 的 时 间 、人 力 和 财 力 , 是 不 现 实
的 。 因 此 对 “项 目 无 回 答 ” 的 弥 补 处 理 多 采 用 插 补 法
(imputation method )。
插 补 法 是 指 采 取 一 定 的 方 式 为 调 查 中 的 每 一 个 缺
失 数 据 寻 找 一 个 合 理 的 替 补 值 插 补 到 原 缺 失 数 据 的 位
插补和模型插补等。但是单一插补假定好像缺失值在完
全数据分析中是已知的, 并未反映出位置缺失数据的预
测 的 不 确 定 性 , 容 易 扭 曲 变 量 关 系 , 无 法 反 映 无 回 答 模
型的不确定性, 并且参数估计的估计方差结果将是有偏
的。
多重插补法则弥补了单一插补的缺陷, 考虑了缺失
数据的不确定性, 提出了处理缺失数据的另一种有用的
策略。美国哈佛大学统计学系 的 Rubin 教 授 70 年 代 末
首先提出多重插补的思想。它是给每个缺失值都构造 m
个插 补 值(m>1),这 样 就 产 生 出 m 个 完 全 数 据 集, 对 每 个
完全数据集分别使用相同的方法进行处理, 得到个处理
结 果 , 再 综 合 这 个 处 理 结 果 , 最 终 得 到 对 目 标 变 量 的 估
计。
与单一插补相比, 多重插补构造 m 个插补值的目的
是模拟一定条件下的估计量分布, 应用完全数据分析方
法和融合数据收集者知识的能力, 根据数据模式采用不
同的模型随机抽取进行插补, 能够反映在该模型下由缺
失 值 导 致 的 附 加 ( 额 外 ) 变 异 , 增 加 了 估 计 的 有 效 性 ; 同
置上, 对得到的“完全数据集”使用完全数据统计分析方
时在多个模型下通过随机抽取进行插补, 简单地应用完
法分析并进行统计推断的一种方法。
全数据方法, 可以对无回答的不同模型下推断的敏感性
插补的目的并不是预测单个缺失值, 而是预测缺失
进行直接研究。
数据所服从的分布。通过插补, 一方面, 填补了缺失数据
的空白, 使得原来有缺失数据的数据集成为一个完整数
1987 年, Rubin 提出了多重 插 补 程 序, 它 是 用 一 系
列可能的数据集来填充每一个缺失数据值( 这样也突出
据集, 弥补了统计分析的不便; 另一方面, 减少了由于数
了所需插补值的不确定性) ; 然后使用完全数据的标准
据缺失造成的估计量的偏差。
二、多重插补的提出
程序去分析这些多重插补数据集; 最后对这些分析结果
归纳、综合。需要注意的是无论使用哪一种完全数据分
总第 87 期
特 稿
5
析, 从不同插补数据集得到的综合结果的处理程序实
质是一致的, 这样就形成了有效的统计推断。
三、多重插补机制
多重插补并没有试图去通过模拟值去估计每个缺
失值, 而是提出缺失数据值的一个随机样本, 这种程序
的 实 施 恰 当 地 反 映 了 由 于 缺 失 值 引 起 的 不 确 定 性 , 使
得统计推断有效。
多重插补推断包括了 3 个不同步骤:
———对缺失数据填补 m 次, 产生 m 个完整的数据
集
———使用标准程序去分析这 m 个完整数据集
———综合这个完整数据集的结果, 用于推断
由多重插补的步骤可知, 多重插补所面临的主要
问题是如何得到缺失数据的多个插补模版。由于缺失
数据模型的类型决定了多重插补的插补机制, 因此为
正 确 地 进 行 插 补 , 需 要 首 先 明 确 数 据 缺 失 机 制 , Little
and Ruth(1987)把 缺 失 数 据 确 定 为 三 种 独 特 类 型 : 完 全
随 机 缺 失 数 据( MCAR) 、随 机 缺 失 数 据(MAR)和 不 可 忽
略 的 漏 填 数 据 。 而 MCAR 可 以 看 作 是 MAR 的 一 个 特
例, 对于 MCAR, 缺失数据值是所有数据值 的 一 个 简 单
随机样本, 缺失性并不决定于数据集中的任何一个变
量。
SAS 多 重 插 补 程 序 假 设 缺 失 数 据 是 随 机 缺 失 的
( MAR) , 即观测值的缺失概率是依赖于观测值本身, 而
不是缺失值。同时它假定数据模型的参数和缺失数据
示性参 数 f 是 可 分 的( 有 区 别 的) 。 即 已 知 的 值 并 不 能
为参数 f 提供额外的信息, 反之亦然。如果随机缺失和
有区别的假设都得到满足, 则缺失数据机制可认为是
可忽略的。
在满足上述假设下, 多重插补程序提供了插补缺
失 数 据 的 三 种 方 法: 回 归 预 测 方 法 (regression predict
method), 倾 向 得 分 法 ( Propensity Score method) 与 蒙 特
卡罗的马氏链方法( MCMC) 。
( 一) 回归预测法
当一个个体观测值的变量缺失则意味着后面的变
量均缺失时, 认为此数据集是单调缺失模式。即对第 i
个单元, 变量 Yj 缺失, 则对该单元, 所有的后续变 量 Yk
(k>j)都缺失。对于单调缺 失 数 据 模 式 可 以 选 择 多 元 正
态假设的参数回归方法来实施插补。
在回归模型中, 回归模型的拟合是将以前的变量
作为协变量来建立具有缺失数值的每个变量, 以结果
模型为基础, 模拟一个新的回归模型, 用于插补每个变
量的缺失值。
由于数据缺失是单调模式, 则对有缺失 的 每 个 变
量重复进行这一过程即可。即对有缺失的变量 Yj, 利用
无缺失的观测值建立一个回归模型:
Y
+∧+!j- 1
+!1
+!2
=!0
Y
1
Y
2
Y
j
(j- 1)
该模型的回归参数估计为!" 0
,∧,!" (j- 1), 相应的
jVj, Vj 是通常的 X'X 阵, X 来自解释变量
, !" 1,!" 2
2
协方差阵为 "
Y1,Y2,∧,Y
(j- 1)
和截矩项。
对每一步 插 补, 从 缺 失 数 据 的 后 验 预 测 分 布 中 抽 取
新的参数 !*0
,∧,!" (j- 1)和 "
2
代:
2
+!*2
+∧+!*(j- 1)
, !" 1,!"
+!*1
j 及 Vj 模拟得到。然后缺失值通过下式替
*j。即根据!" 0
和 "
2
+!*1
Y
1
+!*2
Y
2
Y
+∧+!*(j- 1)
(j- 1)
+zi"*j
!*0
其中 y1,y2,∧, yj- 1 是前 j- 1 个变量的观测值, zi 是一正态
偏离。
( 二) 倾向得分法
倾向得分法是在给定的观测协变量时, 指 定 给 一
个特殊处理的条件概率。在倾向得分法中, 对每个缺失
变量都赋予一个倾向得分, 以代表观测值缺失的概率,
并根据倾向得分对观测值进行分组, 然后应用近似贝
叶斯自助法( bootstrap) 插补。
对于一个单调缺失模式, 使用下面步骤对每个缺失
变量 Yj 进行插补:
1、先构造一个示性变量 Rj, 对其有下面规定:
Rj=
Yj 有缺失
0
1
其"
它
2、拟合一个逻辑斯回归模型
logit(pj)=!0
+!1
+!2
Y
1
Y
2
Y
+∧+!(j- 1)
(j- 1)
这里 pj=pr(Rj=0|Y1,Y2,∧, Yj- 1)且 log(p/(1- p))
3、对 每 个 观 测 值 建 立 一 个 倾 向 得 分 , 以 表 示 其 缺
失概率。
4、基于这些倾向得分把观测值划分为固定数目 的
分组。
5、对每一组都使用近似贝叶斯 bootstrap 法插补:
在第 k 组, 令:
Yobs 代 表 缺 失 变 量 Yj 的 非 缺 失 的 已 观 测 值, 其 观
测值数目为 n1。
Ymis 代表 缺 失 变 量 Yj 的 缺 失 观 测 值 ( 未 观 测 值) ,
其观测数目为 n0。
近似贝 叶 斯 bootstrap 插 补 方 法, 首 先 从 Yobs 中 随
机 有 放 回 地 抽 取 n1 个 观 测 值 , 建 立 一 个 新 的 数 据 集
Y*
obs 这是对 从 缺 失 数 据 的 后 验 预 测 分 布 得 到 的 参 数 的
obs 来随机替代 Ymis 的 n0 个插补
非参数模型, 然后用 Y*
值, 并对有缺失值的每个变量连续地重复实施。
倾向得分方法只使用与是否有缺失的插补变量 值
相联系的协变量信息。它并不使用变量间相关性系数,
6
统计教育
2006 年第 12 期
p—step 则从 P{!|Yobs,Ymis
(t+1)} 得到 !
(t+1)}
(t+1)~P{!|Yobs,Ymis
这样就创建了一个马氏链( Y(1)
!
(t+1)
mis,!
(1)) , ( Y(2)
mis,!
(2)) , …,
收敛于分布 P{Ymis,!|Yobs}。
当我们掌握的数据是任意 型 缺 失 模 式, 则 可 经 常 性
的选择是 MCMC 方法, 即使用模拟迭代。对于正态数据,
从贝叶斯预测分析中使用模拟建 立 多 重 插 补 值, 处 理 这
种 数 据 集 的 另 外 一 种 方 法 是 使 用 MCMC 方 法 去 插 补 足
够多的值使得缺失数据模式单调化。
四、多重插补的推断及插补效果
与 单 变 量 推 断 ( 单 一 推 断 ) 相 似 , 多 重 推 断 ( 基 于
Walk 检验) 也可以从个插补数据集中得到。对个插补值,
我 们 可 以 计 算 出 m 个 不 同 参 数 Q 的 点 估 计 和 方 差 估 计
和U% i
(i=1,2,∧,m)为第 i 次 插 补 集 的 点 估 计 量
集合。令Q% i
和方差估计量,然后得到多重插补的 点 估 计 量 Q, Q 为 m
个完全数据估计量的平均。即:
Q"=
1
m
m
i = 1#Q% i
1
m
m
i = 1$Q% i
1
m
m
i = 1$(!% i- !%)2
令U"为组内插补方差, 则U"=
令 B 为组间插补方差, 则 B=
因此, 总方差 T 为: T=U"+(1+
1
m
)B
统计量(!% i- !%)T
-
1
2 近似服从自由度为 Vm 的 t 分布:
-
1
2 ~t(Vm)
(!% i- !%)T
U"
其中 Vm=(m- 1)[1+
(1+m- 1)B
]2
当 完 全 数 据 的 自 由 度 V0 很 小 且 仅 有 一 小 部 分 比 例
的缺失数据时 , 计 算 出 自 由 度 Vm 可 能 比 V0 还 要 大, 而
这显然是不恰当。Barnard 和 Rubin( 1999) 建议使用调整
的自由度 Vm
*。
Vm
*=[
1
Vm
+
]- 1
1
V% obs
(1+m- 1)
对单个个体插补变量的分布的推断是有效的, 但并不适
合于变量间存在相关关系的分析。
( 三) 蒙特卡罗的马氏链方法
Markov chain Monte Carlo ( MCMC) 产 生 于 物 理 过
程, 它是用于研究分子间的稳态分布的。在统计中, 用于
通 过 马 氏 链 从 多 维 和 其 它 难 以 处 理 的 概 率 分 布 中 产 生
伪随机( 非随机结果) 。一个马氏链就是一个随机变量序
列, 其 中 每 一 个 元 素 或 变 量 的 分 布 依 赖 于 前 面 的 变 量
值。
在 MCMC 中, 构 建 了 一 个 对 各 变 量 的 分 布 而 言 都
足 够 长 的 马 氏 链 , 使 一 个 普 通 的 分 布 更 加 稳 定 , 而 这 个
稳态分布就是所要求的分布。从有关的分布中, 通过马
氏链的反复模拟得到结果。
假定数据服从多元正态分布, 则数据扩充算法( data
augmentation algorithm) 被 用 于 贝 叶 斯 推 断 , 通 过 下 面 步
骤来插补缺失数据。
1、插补步骤: i—step (imputation step )
使用估计的均值向量和协方差矩阵, 插补步骤对每
个观测值独立地模拟其缺失值。即如果对观测值使用 Yi
(mis)代表有缺失值的变量。已观测值变量用 Yi(obs)来 表 示,
则 i—step 从给定 Yi(obs)下的条件分布 Yi(mis)中得到 Yi(mis)。
2、后验步骤( p—step) posterior step
此 步 骤 从 完 整 样 本 估 计 量 中 模 拟 一 个 后 验 分 布 均
值向量和协方差矩阵, 这些新的估计量随后被用在 i—
step 中。若没有提供参数的先验信息, 则使用 一 个 不 提
供信息的先验分布或选 择 其 它 有 先 验 信 息 的 分 布 。 例
如: 协方差的先验信息有助于得到一个近似奇异协方差
这里V% obs
=
V0+1
V0+3
V0(1- r), r=
B
T
矩阵的协变量的稳定推断。
而 判 断 插 补 的 效 果 如 何 则 取 决 于 替 补 值 和 缺 失 值
两 步 骤 反 复 迭 代 是 为 使 结 果 对 一 个 多 重 插 补 数 据
的近似程度, 可以用比率 r 来衡量:
集而言更加可靠。其目的是对稳态分布反复收敛, 然后
去模拟缺失数据的一个近似独立的结果。
插补原理为:
已知第 t 次 迭 代 的 现 有 参 数 估 计 量 !
(t), i—step 从 P
(Ymis|Yobs,!
(t))中得到 Ymis
(t+1), 即
Ymis
(t+1)~P{Ymis|Yobs,!
(t)}
r=
(1+m- 1)B
U"
比率 r 是由于无回答引起的方差的相对增加值 ( 方
差增加的相对量) 。如果 Q 没有缺失信息, 则 r 值 B 值都
为 0, 当 m 较大或 r 较小时, 自由度 Vm 将较大, 分布近似
正态的。
总第 87 期
特稿
7
表 1
多重插补推断的相对效率
m
3
5
10
20
10%
0.9677
0.9804
0.9901
0.9950
!
20%
0.9375
0.9615
0.9804
0.9901
30%
0.9091
0.9434
0.9709
0.9852
50%
0.8571
0.9091
0.9524
0.9756
70%
0.8108
0.8772
0.9346
0.9662
无回答的另外有用的统计量 Q 是的缺失信息部分
的出现以及多重插补本身的优 势, 多 重 插 补 将 成 为 处 理
r+2/(Vm+3)
r+1
!! =
缺失数据的主要手段。
参考文献:
[1] 谢邦昌著.张尧庭、董麓改编.抽样调查的理论及其
应用方法 [M] 中国统计出版社.1998.3
[2]金勇进 缺失数据的插补调整 [J] 数理统计与管理,
2001.5
[3] 冯士雍、倪加勋、邹国华 抽样调查理论与方法 [M].
中国统计出版社. 1998
[4]Judith T.Lessler William D.Kalsbeek 著 金勇进译 倪加
勋校 调查中的非抽样误差[M].中国统计出版社.
1997.10
[5]傅德印.政府统计数据质量体系研究[M].甘肃人民出
版社.2000
[6] 庞新生.多重插补处理缺失数据方法的理论基础探析
[J] 理论新探 2005.
[7]Little, R .J.A. and R ubin, D.B. (1987), Statistical Analy
sis with Missing Data, New York: John Wiley & Sons,
Inc.
[8]Tiandong Li. Comparison of Multiple Imputation and
Other Imputation Method Department of Measurement,
Applied Statistics and Evaluation University of Mary
land, College Park
[9] Donald B. R ubin. Multiple Imputation for Nonresponse
in Surveys [M].John Wiley, 1987.
( 作者单位: 兰州商学院)
相对效率是使用 m 个有限插补估计, 而不是使用无
穷量的插补估计, 它近似是 m 和 ! 的函数, 从而得到完全
有效插补值。
RE=(1+ !
m
)- 1
当 m 和 r 取不同值时, 相对效率结果见表1。
五、多重插补存在的问题
多 重 插 补 推 断 假 定 分 析 者 模 型 和 插 补 模 型 是 相 同
的, 但实际应用操作时, 两个模型并不完全相同。
例如, 假设三元数据集 Y1、Y2、Y3、Y1、Y2 是完全观 测
数 据, 而 Y3 有 缺 失 值 , 一 个 插 补 者 创 建 插 补 模 型 Y3=Y1·
Y2, 而分析人员后面则使用模型 Y3=Y1, 在这种案例中, 分
析者假设 Y3、Y2 是独立的,即无相关关系。
如果假设是真的, 则插补模型仍然适用, 尽管有些保
守, 但是它反映了 Y3 和 Y2 关 系 的 估 计 的 附 加 不 确 定 性,
因此源于多重插补的推断也还是有效的。
另 一 方 面 , 假 设 分 析 者 模 型 为 Y3=Y1, 而 Y3 和 Y2 相
关 , 则 模 型 Y3=Y1 将 是 有 偏 的 , 分 析 者 模 型 将 是 不 恰 当 ,
适当的结果只能从合适的分析者模型中产生。
此外, 另外一种情形也会发生: 即插补者假设多于分
析者。例如, 插补者建立的多重插补模型为 Y3=Y1, 即插补
者假设是独立的,即无相关关系。但分析者在分析时模拟
的模型为 Y3=Y1·Y2。当假设成立时, 插补模型为正确的模
型 , 推 断 应 保 留 ; 如 果 假 设 不 成 立 , 即 假 设 Y3,Y2 是 相 关
的, 则建立在不正确的假定下的插补值将使分析者相关
关系的估计值与 0 有偏。这样, 建立在不正确模型下的多
重插补值, 会导致不正确的结论。
因此在实施插补时应包括尽可能多的变量, 当引 入
了不重要的变量时, 因为不重要的预测值而丧失的精度,
对获得的多重插补数据集的分析的总的有效性( 总效用)
而言, 代价是相对较小的。分析者通过对插补者模型的描
述将获得插补中所含变量信息, 将了解哪几种变量间的
关系可以简单的归于 0, 因此多重插补数据集的插补者模
型的描述是有用的。
综 上 , 虽 然 多 重 插 补 在 实 施 时 比 较 复 杂 , 难 以 掌 握 ,
但是随着计算机技术的迅速发展, 相应的插补专业软件