结构方程模型 课件
(Structural Equation Modeling,SEM) –
结构方程模型
结构方程模型是一门基于统计分析技术的研究方法学,它主要用于解决社会科学研
究中的多变量问题,用来处理复杂的多变量研究数据的探究与分析。在社会科学及经济、
市场、管理等研究领域,有时需处理多个原因、多个结果的关系,或者会碰到不可直接
观测的变量(即潜变量),这些都是传统的统计方法不能很好解决的问题。 SEM 能够对
抽象的概念进行估计与检定,而且能够同时进行潜在变量的估计与复杂自变量 /因变量
预测模型的参数估计。
结构方程模型是一种非常通用的、主要的线形统计建模技术,广泛应用于心理学、经济
学、社会学、行为科学等领域的研究。实际上,它是计量经济学、计量社会学与计量心理学
等领域的统计分析方法的综合。多元回归、因子分析和通径分析等方法都只是结构方程模型
中的一种特例。
结构方程模型是利用联立方程组求解,它没有很严格的假定限制条件,同时允许自变量
和因变量存在测量误差。在许多科学领域的研究中,有些变量并不能直接测量。实际上,这
些变量基本上是人们为了理解和研究某类目的而建立的假设概念,对于它们并不存在直接测
量的操作方法。人们可以找到一些可观察的变量作为这些潜在变量的“标识”,然而这些潜
在变量的观察标识总是包含了大量的测量误差。在统计分析中,即使是对那些可以测量的变
量,也总是不断受到测量误差问题的侵扰。自变量测量误差的发生会导致常规回归模型参数
估计产生偏差。虽然传统的因子分析允许对潜在变量设立多元标识,也可处理测量误差,但
是,它不能分析因子之间的关系。只有结构方程模型即能够使研究人员在分析中处理测量误
差,又可分析潜在变量之间的结构关系。
与传统的回归分析不同,结构方程分析能同时处理多个因变量,并可比较及评价不
同的理论模型。与传统的探索性因子分析不同,在结构方程模型中,我们可以提出一个
特定的因子结构,并检验它是否吻合数据。通过结构方程多组分析,我们可以了解不同
组别内各变量的关系是否保持不变,各因子的均值是否有显著差异。 ”
已经有多种软件可以处理 SEM,包括:LISREL,AMOS, EQS, Mplus.
结构方程模型包括测量方程(LV 和 MV 之间关系的方程,外部关系)和结构方程(LV 之
间关系的方程,内部关系),以 ACSI 模型为例,具体形式如下:
测量方程 y=Λ yη +ε y , x=Λ xξ +ε x=(1)
1
结构方程模型 课件
结构方程 η =Bη +Г ξ +ζ 或 (I-Β )η =Г ξ +ζ (2)
η 和ξ 分别是内生 LV 和外生 LV,y 和 x 分别是和的 MV,Λ x 和Λ y 是载荷矩阵,Β 和Г
是路径系数矩阵,ε 和ζ 是残差。
δ 1
δ 2
δ 3
χ 1
λ 1
χ 2
λ 2
ξ
χ 3
λ 3
误差
观察变量
负荷量
潜在变量
χ 1
δ 1
y1
χ 2
ξ 1
η 1
χ 3
y1
y1
ε 1
ε 1
ε 1
测量模式
ζ
结构模式
δ 1
δ 2
δ 3
三种分析对比
线性相关分析:
线性相关分析指出两个随机变量之间的统计联系。两个变量地位平等,没有因变量
和自变量之分。因此相关系数不能反映单指标与总体之间的因果关系。
2
线性回归分析:
结构方程模型 课件
线性回归是比线性相关更复杂的方法,它在模型中定义了因变量和自变量。但它只
能提供变量间的直接效应而不能显示可能存在的间接效应。而且会因为共线性的原因,
导致出现单项指标与总体出现负相关等无法解释的数据分析结果。
结构方程模型分析:
结构方程模型是一种建立、估计和检验因果关系模型的方法。模型中既包含有可观
测的显在变量,也可能包含无法直接观测的潜在变量。结构方程模型可以替代多重回归、
通径分析、因子分析、协方差分析等方法,清晰分析单项指标对总体的作用和单项指标
间的相互关系。
结构方程模型假设条件--------
⑴合理的样本量(James Stevens 的 Applied Multivariate Statistics for the
Social Sciences 一书中说平均一个自变量大约需要 15 个 case;Bentler and Chou (1987)
说平均一个估计参数需要 5 个 case 就差不多了,但前提是数据质量非常好;这两种说
法基本上是等价的;而 Loehlin (1992)在进行蒙特卡罗模拟之后发现对于包含 2~4 个
因子的模型,至少需要 100 个 case,当然 200 更好;小样本量容易导致模型计算时收
敛的失败进而影响到参数估计;特别要注意的是当数据质量不好比如不服从 正态分布或
者受到污染时,更需要大的样本量)
⑵连续的正态内生变量(注意一种表面不连续的特例: underlying continuous;
对于内生变量的分布,理想情况是联合多元正态分布即 JMVN)
⑶模型识别(识别方程)(比较有多少可用的输入和有多少需估计的参数;模型不
可识别会带来参数估计的失败)
⑷完整的数据或者对不完整数据的适当处理(对于缺失值的处理,一般的统计软件
给出的删除方式选项是 pairwise 和 listwise,然而这又是一对普遍矛盾:pairwise 式
的删除虽然估计到尽量减少数据的损失,但会导致协方差阵或者相关系数阵的阶数 n 参
差不齐从而为模型拟合带来巨大困难,甚至导致无法得出参数估计; listwise 不会有
pairwise 的问题,因为凡是遇到 case 中有缺失值那么该 case 直接被全部删除,但是
又带来了数据信息量利用不足的问题 ——全杀了吧,难免有冤枉的;不杀吧,又难免影
响整体局势)
⑸模型的说明和因果关系的理论基础(实际上就是假设检验的逻辑 ——你只能说你
的模型不能拒绝,而不能下定论说你的模型可以被接受)
3
结构方程模型的技术特性-----------
结构方程模型 课件
1. SEM 具有理论先验性
2. SEM 同时处理测量与分析问题
3. SEM 以协方差的运用为核心,亦可处理平均数估计
4. SEM 适用于大样本的分析——一般而言,大于 200 以上的样本,才可称得上是一
个中型样本。
5. SEM 包含了许多不同的统计技术。
6. SEM 重视多重统计指标的运用
结构方程模型的实施步骤-------------
⑴模型设定。研究者根据先前的理论以及已有的知识,通过推论和假设形成一个关于一
组变量之间相互关系(常常是因果关系)的模型。这个模型也可以用路径表明制定变量
之间的因果联系。
⑵模型识别。模型识别时设定 SEM 模型时的一个基本考虑。只有建设的模型具有识别性 ,
才能得到系统各个自由参数的唯一估计值。其中的基本规则是,模型的自由参数不能够
多于观察数据的方差和协方差总数。
⑶模型估计。SEM 模型的基本假设是观察变量的反差、协方差矩阵是一套参数的函数。
把固定参数之和自由参数的估计带入结构方程,推导方差协方差矩阵 Σ ,使每一个元素
尽可能接近于样本中观察变量的方差协方差矩阵 S 中的相应元素。也就是,使Σ 与 S 之
间的差异最小化。在参数估计的数学运算方法中,最常用的是最大似然法( ML)和广义
最小二乘法(GLS)。
⑷模型评价。在已有的证据与理论范围内,考察提出的模型拟合样本数据的程 度。模型
的总体拟合程度的测量指标主要有χ ²检验、拟合优度指数(GFI)、校正的拟合优度指数(A
GFI)、均方根残差(RMR)等。关于模型每个参数估计值的评价可以用“t”值。
⑸模型修正。模型修正是为了改进初始模型的适合程度。当尝试性初始模型出现不能拟合观
察数据的情况(该模型被数据拒绝)时,就需要将模型进行修正,再用同一组观察数据来进
行检验。
4
结构方程模型 课件
探索性分析---------------
定义:
探索性因子分析法(Exploratory Factor Analysis,EFA)是一项用来找出多元观测变
量的本质结构、并进行处理降维的技术。 因而,EFA 能够将将具有错综复杂关系的变量综合
为少数几个核心因子。
探索性因子分析(EFA)致力于找出事物内在的本质结构。
e1
e2
e3
χ 1
χ 2
χ 3
f1
f2
f3
残差
指标
因子负荷 潜变量
探索性分析的适用情况:
在缺乏坚实的理论基础支撑,有关观测变量内部结构,一般用探索性因子分析。先用探
索性因子分析产生一个关于内部结构的理论,再在此基础上用验证性因子分析。但这必须用
分开的数据集来做。
探索性分析步骤------------------
1、辨别、收集观测变量。按照实际情况收集观测变量,并对其进行观测,获得观测值。
针对总体复杂性和统计基本原理的保证,通常采用抽样的方法收集数据来达到研究目的。
2、获得协方差阵(或 Bravais-Pearson 的相似系数矩阵)。我们所有的分析都是从原始
数据的协方差阵(或相似系数矩阵)出发的,这样使我们分析得到的数据具有可比性,所以
首先要根据资料数据获得变量协方差阵(或相似系数矩阵)。
3、确定因子个数。有时候你有具体的假设,它决定了因子的个数;但更多的时候没有
这样的假设,你仅仅希望最后的到的模型能用尽可能少的因子解释尽可能多的方差。如果你
有 k 个变量,你最多只能提取 k 个因子。通过检验数据来确定最优因子个数的方法有很多,
例如 Kaiser 准则、Scree 检验。方法的选择由,具体操作时视情况而定。
5
结构方程模型 课件
4、提取因子。因子的提取方法也有多种,主要有主成分方法、不加权最小平方法、极
大似然法等,我们可以根据需要选择合适的因子提取方法。其中主成分方法一种比较常用的
提取因子的方法,它是用变量的线性组合中,能产生最大样品方差的那些组合(称主成分)
作为公共因子来进行分析的方法。
5、因子旋转。因子载荷阵的不唯一性,使得可以对因子进行旋转。这一特征,使得因
子结构可以朝我们可以合理解释的方向趋近。我们用一个正交阵右乘已经得到的因子载荷阵
(由线性代数可知,一次正交变化对应坐标系的一次旋转),使旋转后的因子载荷阵结构简
化。旋转的方法也有多种,如正交旋转、斜交旋转等,最常用的是方差最大化正交旋转。
6、解释因子结构。最后得到的简化的因子结构是使每个变量仅在一个公共因子上有较
大载荷,而在其余公共因子上的载荷则比较小,至多是中等大小。通过这样,我们就能知道
所研究的这些变量是由哪些潜在因素(也就是公共因子)影响的,其中哪些因素是起主要作
用的,而哪些因素的作用较小,甚至可以不用考虑。
7、因子得分。因子分析的数学模型是将变量表示为公共因子的线性组合,由于公共因
子能反映原始变量的相关关系,用公共因子代表原始变量时,有时更利于描述研究对象的特
征,因而往往需要反过来将公共因子表示为变量的线性组合,即因子得分。
验证性因子分析-------------------
验证性因子分析是对社会调查数据进行的一种统计分析。它测试一个因子与想对应
的测度项之间的关系是否符合研究者所设计的理论关系。
验证性因子分析 (confirmatory factor analysis) 的强项在于它允许研究者明
确描述一个理论模型中的细节。因为测量误差的存在,研究者需要使用多个测度项。当
使用多个测度项之后,我们就有测度项的“质量”问题,即效度检验。而效度检验就是
要看一个测度项是否与其所设计的因子有显著的载荷,并与其不相干的因子没有显著的
载荷。
对测度模型的检验就是验证性测度模型。对测度模型的质量检验是假设检验之前的必要
步骤。
而验证性因子分析(CFA)是用来检验已知的特定结构是否按照预期的方式产生作用。
e1
e2
e3
χ 1
χ 2
f1
χ 3
残差
观测变量
负荷
潜变量
6
验证性因子分析的步骤-----------------------------------------------
结构方程模型 课件
1、定义因子模型。包括选择因子个数和定义因子载荷。因子载荷可以事先定为 0 或者
其它自由变化的常数。或者在一定的约束条件下变化的数(比如与另一载荷相等)。这是和
探索性因子分析在分析方法上的一个重要差异,我们可以用一个直观的比喻,也就是说探索
性因子分析是在一张白纸上作图,而验证性因子分析是在一张有框架的图上完善和修改。
2、收集观测值。定义了因子模型以后,我们就可以根据研究目的收集观测值了。这一
点与探索性因子分析有一定的相似之处。
3、获得相关系数矩阵。与探索性因子分析一样,我们的分析都是在原始数据的相关系
数矩阵基础上进行的,所以首先就要得到相关系数矩阵。实际上方差协差阵、相似系数矩阵
和相关阵之间是可以相互转化的。
4、根据数据拟合模型。我们需要选择一个方法来估计自由变化的因子载荷。在多元正
态的条件下,最常用的是极大似然估计,也可采用渐进分布自由估计。
5、评价模型是否恰当。这一步可以说是验证性因子分析的核心。当因子模型能够拟合
数据时,因子载荷的选择要使模型暗含的相关阵与实际观测阵之间的差异最小。最好的参数
被选择以后,差异量能被用来作为衡量模型与数据一致的程度。最常用的模型适应性检验是
卡方拟合优度检验。原假设是模型是适应性模型,备择假设是存在显著差异。但是,这个检
验受样本量大小影响,包含大样本的检验往往会导致拒绝原假设,尽管因子模型是合适的。
其他的统计方法,比如用 Tucker-Lewis 指数,比较建议模型和“原模型”的拟合度。这些方
法受样本量大小影响不大。
6、与其他模型比较。为了得到最优模型,我们需要完成这一步。如果你想比较两个模
型,其中一个是另一个的缩略形式,你就能从卡方统计量的值检查出他们的差别,大约服从
卡方分布。几乎所有独立因子载荷的检验能用来作为全因子模型和简因子的模型之间的比较。
为以防你不是在检查全模型和简模型,你可以比较均方根误差的近似值 (RMSEA),它是模型
中每个自由度差异的一个估计值。
验证性分析适用情况-------------------------
验证性因子分析要处理推论统计量,处理难度要求高。需要具备更大容量的样本。精确
的样本量要随着观测值和模型的因子数变化而变化,但一个标准模型至少需要 200 个个体。
在进行分析过程中必须选择与每个因子在很大程度上匹配的变量,而不是可能是潜在变量的
“随机样本”。
7
结构方程模型 课件
基于结构方程全模型的大学生就业预期情况分析
0 引言
随着我国经济的不断发展,我国高校大规模扩招,越来越多的年轻人获得了接受教育的
机会。从社会发展的角度来讲,大批高素质的人才培养是与我国快速发展的社会经济水平相
适应的。然而,由此也带来了两方面的问题:
一是本科生的就业矛盾日益突出,几乎每一个大学生都在切身感受就业的恐慌;
二是人才的竞争加剧,加之市场对于人才的需求多元化,考研或出国深造成为提高我们
本科生自身核心竞争力的一种渠道,同时也是规避就业难的一种新途径;
那么,在如此就业形势严峻、人才竞争加剧的当今社会,大学生们对自己将来的就业有
怎样的预期呢?
本论文基于辽宁工程技术大学数学与统计学院 2005 级统计系本科生于 2007 年 10 月至
11 月期间收集的题目为“大学生就业与深造意向调查”的原始问卷资料,欲从大学生的就业
预期角度出发,结合结构方程模型,分析大学生预期就业手段和预期就业地域方面的相关情
况,并期望推广结构方程模型应用于问卷分析的方法。
1 问题分析
1.1 研究目的
本论文在采用量表方式对问卷中的定性变量予以赋值后,欲分析影响大学生预期就业手
段和预期就业地域的因素,并期望得到各个因素与大学生预期就业手段、预期就业地域之间
的关系的度量。
需注意:
⑴该调查的调查对象是辽宁工程技术大学全日制在读本科生。调查对象仅仅是来自大学
生这个总体的一个群或层。根据抽样调查的相关理论,辽宁工程技术大学在读本科生并不具
有典型代表性,即它作为大学生总体的一个群被抽出并不具备随机性和强代表性。因此,本
论文从这份调查数据出发,仅仅只是从一个相对小的视角研究大学生预期就业手段、预期就
业地域方面的情况,结果不一定适用于大学生总体。
⑵问卷数据归属于 2009 年 10 月这个时点,因此,本论文的分析结果当然是对 2009 年
10 月这个时点相关情况的反映。
8