logo资料库

缺失数据的多重插补方法.pdf

第1页 / 共4页
第2页 / 共4页
第3页 / 共4页
第4页 / 共4页
资料共4页,全文预览结束
4 统计教育 2006 年第 12 期 缺失数据的多重插补方法 文/ 乔丽华 傅德印 摘要: 插 补 法 是 对 缺 失 数 据 的 调 整 方 法, 多 重 插 补 迄今为止, 学术界已提出并发展了 30 多种插补 方 弥补了单一插补的缺陷, 采用一系列可能的数据集来填 充每一个缺失数据值, 反映了缺失数据的不确定性。本 文介绍了多重插补程序的三种数据插补方法: 回归预测 法。在抽样调查中应用的主要是单一插补和多重插补。 单一插补指对每个缺失值, 从其预测分布中抽取一 个 值 填 充 缺 失 值 后 , 使 用 标 准 的 完 全 数 据 分 析 进 行 处 法 、倾 向 得 分 法 和 蒙 特 卡 罗 的 马 氏 链 方 法 , 并 且 对 多 重 插 补 的 插 补 效 果 进 行 推 断 , 指 出 多 重 插 补 存 在 的 理。单一插补方法大致可以归为两类: 随机插补和确定 性插补, 具体包括: 均值插补、热卡插补、冷卡插补、回归 问 题 。 关键词: 多重插补; 缺失数据 一、引言 在 数 据 处 理 和 数 据 分 析 中 经 常 会 出 现 缺 失 数 据 (missing data )或 不 完 全 数 据 ( incomplete data ) , 从 抽 样 调查的角度, 把这些数据归结为无回答数据集。一般把 无 回 答 分 为“单 位 无 回 答 ”和“项 目 无 回 答 ”。“项 目 无 回 答 ”是 指 被 调 查 单 位 虽 然 接 受 了 调 查 , 但 只 回 答 了 其 中的一部分而非全部的问题, 或者对某些项目提供的资 料是无用的。对于“项目无回答”, 如果重新调查来获得 准 确 数 据 , 会 浪 费 大 量 的 时 间 、人 力 和 财 力 , 是 不 现 实 的 。 因 此 对 “项 目 无 回 答 ” 的 弥 补 处 理 多 采 用 插 补 法 (imputation method )。 插 补 法 是 指 采 取 一 定 的 方 式 为 调 查 中 的 每 一 个 缺 失 数 据 寻 找 一 个 合 理 的 替 补 值 插 补 到 原 缺 失 数 据 的 位 插补和模型插补等。但是单一插补假定好像缺失值在完 全数据分析中是已知的, 并未反映出位置缺失数据的预 测 的 不 确 定 性 , 容 易 扭 曲 变 量 关 系 , 无 法 反 映 无 回 答 模 型的不确定性, 并且参数估计的估计方差结果将是有偏 的。 多重插补法则弥补了单一插补的缺陷, 考虑了缺失 数据的不确定性, 提出了处理缺失数据的另一种有用的 策略。美国哈佛大学统计学系 的 Rubin 教 授 70 年 代 末 首先提出多重插补的思想。它是给每个缺失值都构造 m 个插 补 值(m>1),这 样 就 产 生 出 m 个 完 全 数 据 集, 对 每 个 完全数据集分别使用相同的方法进行处理, 得到个处理 结 果 , 再 综 合 这 个 处 理 结 果 , 最 终 得 到 对 目 标 变 量 的 估 计。 与单一插补相比, 多重插补构造 m 个插补值的目的 是模拟一定条件下的估计量分布, 应用完全数据分析方 法和融合数据收集者知识的能力, 根据数据模式采用不 同的模型随机抽取进行插补, 能够反映在该模型下由缺 失 值 导 致 的 附 加 ( 额 外 ) 变 异 , 增 加 了 估 计 的 有 效 性 ; 同 置上, 对得到的“完全数据集”使用完全数据统计分析方 时在多个模型下通过随机抽取进行插补, 简单地应用完 法分析并进行统计推断的一种方法。 全数据方法, 可以对无回答的不同模型下推断的敏感性 插补的目的并不是预测单个缺失值, 而是预测缺失 进行直接研究。 数据所服从的分布。通过插补, 一方面, 填补了缺失数据 的空白, 使得原来有缺失数据的数据集成为一个完整数 1987 年, Rubin 提出了多重 插 补 程 序, 它 是 用 一 系 列可能的数据集来填充每一个缺失数据值( 这样也突出 据集, 弥补了统计分析的不便; 另一方面, 减少了由于数 了所需插补值的不确定性) ; 然后使用完全数据的标准 据缺失造成的估计量的偏差。 二、多重插补的提出 程序去分析这些多重插补数据集; 最后对这些分析结果 归纳、综合。需要注意的是无论使用哪一种完全数据分
总第 87 期 特 稿 5 析, 从不同插补数据集得到的综合结果的处理程序实 质是一致的, 这样就形成了有效的统计推断。 三、多重插补机制 多重插补并没有试图去通过模拟值去估计每个缺 失值, 而是提出缺失数据值的一个随机样本, 这种程序 的 实 施 恰 当 地 反 映 了 由 于 缺 失 值 引 起 的 不 确 定 性 , 使 得统计推断有效。 多重插补推断包括了 3 个不同步骤: ———对缺失数据填补 m 次, 产生 m 个完整的数据 集 ———使用标准程序去分析这 m 个完整数据集 ———综合这个完整数据集的结果, 用于推断 由多重插补的步骤可知, 多重插补所面临的主要 问题是如何得到缺失数据的多个插补模版。由于缺失 数据模型的类型决定了多重插补的插补机制, 因此为 正 确 地 进 行 插 补 , 需 要 首 先 明 确 数 据 缺 失 机 制 , Little and Ruth(1987)把 缺 失 数 据 确 定 为 三 种 独 特 类 型 : 完 全 随 机 缺 失 数 据( MCAR) 、随 机 缺 失 数 据(MAR)和 不 可 忽 略 的 漏 填 数 据 。 而 MCAR 可 以 看 作 是 MAR 的 一 个 特 例, 对于 MCAR, 缺失数据值是所有数据值 的 一 个 简 单 随机样本, 缺失性并不决定于数据集中的任何一个变 量。 SAS 多 重 插 补 程 序 假 设 缺 失 数 据 是 随 机 缺 失 的 ( MAR) , 即观测值的缺失概率是依赖于观测值本身, 而 不是缺失值。同时它假定数据模型的参数和缺失数据 示性参 数 f 是 可 分 的( 有 区 别 的) 。 即 已 知 的 值 并 不 能 为参数 f 提供额外的信息, 反之亦然。如果随机缺失和 有区别的假设都得到满足, 则缺失数据机制可认为是 可忽略的。 在满足上述假设下, 多重插补程序提供了插补缺 失 数 据 的 三 种 方 法: 回 归 预 测 方 法 (regression predict method), 倾 向 得 分 法 ( Propensity Score method) 与 蒙 特 卡罗的马氏链方法( MCMC) 。 ( 一) 回归预测法 当一个个体观测值的变量缺失则意味着后面的变 量均缺失时, 认为此数据集是单调缺失模式。即对第 i 个单元, 变量 Yj 缺失, 则对该单元, 所有的后续变 量 Yk (k>j)都缺失。对于单调缺 失 数 据 模 式 可 以 选 择 多 元 正 态假设的参数回归方法来实施插补。 在回归模型中, 回归模型的拟合是将以前的变量 作为协变量来建立具有缺失数值的每个变量, 以结果 模型为基础, 模拟一个新的回归模型, 用于插补每个变 量的缺失值。 由于数据缺失是单调模式, 则对有缺失 的 每 个 变 量重复进行这一过程即可。即对有缺失的变量 Yj, 利用 无缺失的观测值建立一个回归模型: Y +∧+!j- 1 +!1 +!2 =!0 Y 1 Y 2 Y j (j- 1) 该模型的回归参数估计为!" 0 ,∧,!" (j- 1), 相应的 jVj, Vj 是通常的 X'X 阵, X 来自解释变量 , !" 1,!" 2 2 协方差阵为 " Y1,Y2,∧,Y (j- 1) 和截矩项。 对每一步 插 补, 从 缺 失 数 据 的 后 验 预 测 分 布 中 抽 取 新的参数 !*0 ,∧,!" (j- 1)和 " 2 代: 2 +!*2 +∧+!*(j- 1) , !" 1,!" +!*1 j 及 Vj 模拟得到。然后缺失值通过下式替 *j。即根据!" 0 和 " 2 +!*1 Y 1 +!*2 Y 2 Y +∧+!*(j- 1) (j- 1) +zi"*j !*0 其中 y1,y2,∧, yj- 1 是前 j- 1 个变量的观测值, zi 是一正态 偏离。 ( 二) 倾向得分法 倾向得分法是在给定的观测协变量时, 指 定 给 一 个特殊处理的条件概率。在倾向得分法中, 对每个缺失 变量都赋予一个倾向得分, 以代表观测值缺失的概率, 并根据倾向得分对观测值进行分组, 然后应用近似贝 叶斯自助法( bootstrap) 插补。 对于一个单调缺失模式, 使用下面步骤对每个缺失 变量 Yj 进行插补: 1、先构造一个示性变量 Rj, 对其有下面规定: Rj= Yj 有缺失 0 1 其" 它 2、拟合一个逻辑斯回归模型 logit(pj)=!0 +!1 +!2 Y 1 Y 2 Y +∧+!(j- 1) (j- 1) 这里 pj=pr(Rj=0|Y1,Y2,∧, Yj- 1)且 log(p/(1- p)) 3、对 每 个 观 测 值 建 立 一 个 倾 向 得 分 , 以 表 示 其 缺 失概率。 4、基于这些倾向得分把观测值划分为固定数目 的 分组。 5、对每一组都使用近似贝叶斯 bootstrap 法插补: 在第 k 组, 令: Yobs 代 表 缺 失 变 量 Yj 的 非 缺 失 的 已 观 测 值, 其 观 测值数目为 n1。 Ymis 代表 缺 失 变 量 Yj 的 缺 失 观 测 值 ( 未 观 测 值) , 其观测数目为 n0。 近似贝 叶 斯 bootstrap 插 补 方 法, 首 先 从 Yobs 中 随 机 有 放 回 地 抽 取 n1 个 观 测 值 , 建 立 一 个 新 的 数 据 集 Y* obs 这是对 从 缺 失 数 据 的 后 验 预 测 分 布 得 到 的 参 数 的 obs 来随机替代 Ymis 的 n0 个插补 非参数模型, 然后用 Y* 值, 并对有缺失值的每个变量连续地重复实施。 倾向得分方法只使用与是否有缺失的插补变量 值 相联系的协变量信息。它并不使用变量间相关性系数,
6 统计教育 2006 年第 12 期 p—step 则从 P{!|Yobs,Ymis (t+1)} 得到 ! (t+1)} (t+1)~P{!|Yobs,Ymis 这样就创建了一个马氏链( Y(1) ! (t+1) mis,! (1)) , ( Y(2) mis,! (2)) , …, 收敛于分布 P{Ymis,!|Yobs}。 当我们掌握的数据是任意 型 缺 失 模 式, 则 可 经 常 性 的选择是 MCMC 方法, 即使用模拟迭代。对于正态数据, 从贝叶斯预测分析中使用模拟建 立 多 重 插 补 值, 处 理 这 种 数 据 集 的 另 外 一 种 方 法 是 使 用 MCMC 方 法 去 插 补 足 够多的值使得缺失数据模式单调化。 四、多重插补的推断及插补效果 与 单 变 量 推 断 ( 单 一 推 断 ) 相 似 , 多 重 推 断 ( 基 于 Walk 检验) 也可以从个插补数据集中得到。对个插补值, 我 们 可 以 计 算 出 m 个 不 同 参 数 Q 的 点 估 计 和 方 差 估 计 和U% i (i=1,2,∧,m)为第 i 次 插 补 集 的 点 估 计 量 集合。令Q% i 和方差估计量,然后得到多重插补的 点 估 计 量 Q, Q 为 m 个完全数据估计量的平均。即: Q"= 1 m m i = 1#Q% i 1 m m i = 1$Q% i 1 m m i = 1$(!% i- !%)2 令U"为组内插补方差, 则U"= 令 B 为组间插补方差, 则 B= 因此, 总方差 T 为: T=U"+(1+ 1 m )B 统计量(!% i- !%)T - 1 2 近似服从自由度为 Vm 的 t 分布: - 1 2 ~t(Vm) (!% i- !%)T U" 其中 Vm=(m- 1)[1+ (1+m- 1)B ]2 当 完 全 数 据 的 自 由 度 V0 很 小 且 仅 有 一 小 部 分 比 例 的缺失数据时 , 计 算 出 自 由 度 Vm 可 能 比 V0 还 要 大, 而 这显然是不恰当。Barnard 和 Rubin( 1999) 建议使用调整 的自由度 Vm *。 Vm *=[ 1 Vm + ]- 1 1 V% obs (1+m- 1) 对单个个体插补变量的分布的推断是有效的, 但并不适 合于变量间存在相关关系的分析。 ( 三) 蒙特卡罗的马氏链方法 Markov chain Monte Carlo ( MCMC) 产 生 于 物 理 过 程, 它是用于研究分子间的稳态分布的。在统计中, 用于 通 过 马 氏 链 从 多 维 和 其 它 难 以 处 理 的 概 率 分 布 中 产 生 伪随机( 非随机结果) 。一个马氏链就是一个随机变量序 列, 其 中 每 一 个 元 素 或 变 量 的 分 布 依 赖 于 前 面 的 变 量 值。 在 MCMC 中, 构 建 了 一 个 对 各 变 量 的 分 布 而 言 都 足 够 长 的 马 氏 链 , 使 一 个 普 通 的 分 布 更 加 稳 定 , 而 这 个 稳态分布就是所要求的分布。从有关的分布中, 通过马 氏链的反复模拟得到结果。 假定数据服从多元正态分布, 则数据扩充算法( data augmentation algorithm) 被 用 于 贝 叶 斯 推 断 , 通 过 下 面 步 骤来插补缺失数据。 1、插补步骤: i—step (imputation step ) 使用估计的均值向量和协方差矩阵, 插补步骤对每 个观测值独立地模拟其缺失值。即如果对观测值使用 Yi (mis)代表有缺失值的变量。已观测值变量用 Yi(obs)来 表 示, 则 i—step 从给定 Yi(obs)下的条件分布 Yi(mis)中得到 Yi(mis)。 2、后验步骤( p—step) posterior step 此 步 骤 从 完 整 样 本 估 计 量 中 模 拟 一 个 后 验 分 布 均 值向量和协方差矩阵, 这些新的估计量随后被用在 i— step 中。若没有提供参数的先验信息, 则使用 一 个 不 提 供信息的先验分布或选 择 其 它 有 先 验 信 息 的 分 布 。 例 如: 协方差的先验信息有助于得到一个近似奇异协方差 这里V% obs = V0+1 V0+3 V0(1- r), r= B T 矩阵的协变量的稳定推断。 而 判 断 插 补 的 效 果 如 何 则 取 决 于 替 补 值 和 缺 失 值 两 步 骤 反 复 迭 代 是 为 使 结 果 对 一 个 多 重 插 补 数 据 的近似程度, 可以用比率 r 来衡量: 集而言更加可靠。其目的是对稳态分布反复收敛, 然后 去模拟缺失数据的一个近似独立的结果。 插补原理为: 已知第 t 次 迭 代 的 现 有 参 数 估 计 量 ! (t), i—step 从 P (Ymis|Yobs,! (t))中得到 Ymis (t+1), 即 Ymis (t+1)~P{Ymis|Yobs,! (t)} r= (1+m- 1)B U" 比率 r 是由于无回答引起的方差的相对增加值 ( 方 差增加的相对量) 。如果 Q 没有缺失信息, 则 r 值 B 值都 为 0, 当 m 较大或 r 较小时, 自由度 Vm 将较大, 分布近似 正态的。
总第 87 期 特稿 7 表 1 多重插补推断的相对效率 m 3 5 10 20 10% 0.9677 0.9804 0.9901 0.9950 ! 20% 0.9375 0.9615 0.9804 0.9901 30% 0.9091 0.9434 0.9709 0.9852 50% 0.8571 0.9091 0.9524 0.9756 70% 0.8108 0.8772 0.9346 0.9662 无回答的另外有用的统计量 Q 是的缺失信息部分 的出现以及多重插补本身的优 势, 多 重 插 补 将 成 为 处 理 r+2/(Vm+3) r+1 !! = 缺失数据的主要手段。 参考文献: [1] 谢邦昌著.张尧庭、董麓改编.抽样调查的理论及其 应用方法 [M] 中国统计出版社.1998.3 [2]金勇进 缺失数据的插补调整 [J] 数理统计与管理, 2001.5 [3] 冯士雍、倪加勋、邹国华 抽样调查理论与方法 [M]. 中国统计出版社. 1998 [4]Judith T.Lessler William D.Kalsbeek 著 金勇进译 倪加 勋校 调查中的非抽样误差[M].中国统计出版社. 1997.10 [5]傅德印.政府统计数据质量体系研究[M].甘肃人民出 版社.2000 [6] 庞新生.多重插补处理缺失数据方法的理论基础探析 [J] 理论新探 2005. [7]Little, R .J.A. and R ubin, D.B. (1987), Statistical Analy sis with Missing Data, New York: John Wiley & Sons, Inc. [8]Tiandong Li. Comparison of Multiple Imputation and Other Imputation Method Department of Measurement, Applied Statistics and Evaluation University of Mary land, College Park [9] Donald B. R ubin. Multiple Imputation for Nonresponse in Surveys [M].John Wiley, 1987. ( 作者单位: 兰州商学院) 相对效率是使用 m 个有限插补估计, 而不是使用无 穷量的插补估计, 它近似是 m 和 ! 的函数, 从而得到完全 有效插补值。 RE=(1+ ! m )- 1 当 m 和 r 取不同值时, 相对效率结果见表1。 五、多重插补存在的问题 多 重 插 补 推 断 假 定 分 析 者 模 型 和 插 补 模 型 是 相 同 的, 但实际应用操作时, 两个模型并不完全相同。 例如, 假设三元数据集 Y1、Y2、Y3、Y1、Y2 是完全观 测 数 据, 而 Y3 有 缺 失 值 , 一 个 插 补 者 创 建 插 补 模 型 Y3=Y1· Y2, 而分析人员后面则使用模型 Y3=Y1, 在这种案例中, 分 析者假设 Y3、Y2 是独立的,即无相关关系。 如果假设是真的, 则插补模型仍然适用, 尽管有些保 守, 但是它反映了 Y3 和 Y2 关 系 的 估 计 的 附 加 不 确 定 性, 因此源于多重插补的推断也还是有效的。 另 一 方 面 , 假 设 分 析 者 模 型 为 Y3=Y1, 而 Y3 和 Y2 相 关 , 则 模 型 Y3=Y1 将 是 有 偏 的 , 分 析 者 模 型 将 是 不 恰 当 , 适当的结果只能从合适的分析者模型中产生。 此外, 另外一种情形也会发生: 即插补者假设多于分 析者。例如, 插补者建立的多重插补模型为 Y3=Y1, 即插补 者假设是独立的,即无相关关系。但分析者在分析时模拟 的模型为 Y3=Y1·Y2。当假设成立时, 插补模型为正确的模 型 , 推 断 应 保 留 ; 如 果 假 设 不 成 立 , 即 假 设 Y3,Y2 是 相 关 的, 则建立在不正确的假定下的插补值将使分析者相关 关系的估计值与 0 有偏。这样, 建立在不正确模型下的多 重插补值, 会导致不正确的结论。 因此在实施插补时应包括尽可能多的变量, 当引 入 了不重要的变量时, 因为不重要的预测值而丧失的精度, 对获得的多重插补数据集的分析的总的有效性( 总效用) 而言, 代价是相对较小的。分析者通过对插补者模型的描 述将获得插补中所含变量信息, 将了解哪几种变量间的 关系可以简单的归于 0, 因此多重插补数据集的插补者模 型的描述是有用的。 综 上 , 虽 然 多 重 插 补 在 实 施 时 比 较 复 杂 , 难 以 掌 握 , 但是随着计算机技术的迅速发展, 相应的插补专业软件
分享到:
收藏