项目反应理论
1. 基本思想
a) 个体对于测验的反应受某种心理特质支配,估计个体该特质的分数,并据此预测个
体对于某一项目的反应。特质可以是成就水平、能力倾向、人格、态度等任何一个
维度的心理变量。确定个体的心理特质值和他们对项目的反应之间的关系,这种关
系的数学形式就是“项目反应模型”。
b) 项目反应模型反映的是个体的特质和其对测验项目的正答概率之间的关系,项目反
映理论的核心是数学模型的建立核对模型中的参数的估计。
c) 项目反应模型有多种,包括多维的和单维的,线性的和非线性的,二值记分和多值
记分的。面对具体的测验数据进行分析时,应首先检验它是否符合某个特定的数学
模型,即模型-数据拟合度的检验,再做进一步分析。
2. 特点
a) 项目统计量不依赖于特定的被试样本
b) 个体特质的估计值和所施测的项目无关:对于一个测量特质 A 的题库,根据个体对
于其中任何一部份的反应估计出来的特质值都在同一能力量表上。
c) 个体的特质和项目难度在同一量表上:经典测验理论中,个体的特质量表是测验的
卷面总分,其参照系是全部项目,而项目难度量表是个体群体的得分率,其参照系
是个体群体。参考系的不同使得难以找到验证某个项目是否恰好匹配个体的某一特
质的水平的计量方法。而项目反应理论解决了这一问题。
3. 基本假设
a) 潜在特质空间的单维性假设:只有一种潜在特质决定了个体对项目的反应。
b) 局部独立性假设:个体对某个项目的正答概率不会受到他对该测验中其他项目反应
的影响,即只有考生的特质水平和项目特性会影响到考生对该模型的反应。
c) 项目特征曲线假设/知道-正确假设:如果个体知道某一项目的正确答案,就很可能答
对,若不知道,则很可能答错。个体对测验项目所作反应的概率遵循一定的函数关
系,这种函数关系可以用项目特征曲线表示出来。
4. 项目反应模型
根据反应水平,可以将模型分为二值反应水平、多值反应水平和和连续反应水平。二
值反应水平指个体对测验项目的反应只有两类,如“正确”和“错误”,得到的数据往往用 0
和 1 表示;多值反应水平指个体对测验项目的反应多于两类,如使用等级评定法得到的数
据;连续反应水平可以看作是多值反应水平的极限情况。发展得比较成熟的是二值反应水
平的项目反应模型。本文从正态卵形/肩形模型谈起,推导单参数逻辑斯蒂模型(即拉希模
型)。
拉希模型的推导
1. 正态卵形模型
将要测量的潜在特质记作 ,这个值在给定时刻是固定的,在理论上可以取从-∞到+∞
的任何值。当把第 i 个测验项目呈现给被试时,将会诱发出一个反应 ,因为任何测量都
包含误差的成分,则
其中, 为该被试对项目 i 的潜在反应,和 呈线性关系; 为 和 的相关系
数,把 和 进行标准化变换,使得 也是 关于 的回归系数; 为误差,其分布为随
机分布,假设对于所有 ,
是一个常数, 使 具有概率性质,根据局部独立性假
设,不同项目的 相互独立。此时,被试能否答对该项目取决于潜在反应 是否大于某一
阈值
iiii=+iiiiiiii()iiii*i
被试答对的概率为
。假设 的分布为正态分布,均值为 0。则 也是正态分
布,其均值为
,标准差为
。故在不受猜测影响的情况下,特质为 的被
试答对项目的概率为
将项目难度定义为
项目区分度定义为
将(2)式和(3)式代入(1),可以得到
若考虑到猜测因素,则上式转化为
(1)
(2)
(3)
(4)
(5)
其中, 为猜测参数,即猜测正确的概率,表示项目特征曲线下端渐近线的高度。 t 是被试
特质/能力与项目难度的差距。
如果假设误差是其他分布,就可以得到不同的数学表达形式。对于模型中的参数, 理
论上应为 0-1,但作为一个好的测验项目, 不应太大,一般在 0-0.5 之间,而洛德指出,实
际得到的 值往往低于随机水平,因为项目编制者采用了似是而非的不正确选项,能力较低
的被试往往被这些选项吸引,得分于是偏低,因此 也被称作“伪随机水平参数”。 理论值
为-∞到+∞,但为了保证难度适宜,一般为-2.0 到+2.0。 理论值为-∞到+∞,但负区分度的
题目往往被剔除,同时,大于 2 的情况也比较少见,通常为 0-2。
(4)式和(5)式分别为双参数和三参数正态卵形模型,双参数只考虑项目难度和被试
*iP()iiiiu=2ii1=−*i22ii()/2*ii1P(|)d2e−−=*iiib/=ii2ia1=−ii2a(b)t/21P()dt2e−−−=ii2a(b)t/2ii1P()c(1c)dt2e−−−=+−icicicicicibia
的特质对正确率的影响,不考虑猜测因素的影响,也就是说,能力极低的被试的正答概率接
近零,而能力与难度相同,刚好匹配的被试,正答概率为 0.5,能力极高的被试正答概率接
近 1。而三参数正态卵形模型则考虑了猜测因素的影响。
因为正态卵形模型的计算较为复杂,其实际应用价值被大大限制,而逻辑斯蒂曲线和正态卵
形曲线比较接近,且计算方便,于是逐步代替了正态卵形模型。其表达式为
(6)
其中,x 为任意的符号,而非测验分数,当 x 用不同的代数式表示时,就形成了各种不
同参数的逻辑斯蒂模型。而根据伯恩鲍姆的研究结果,当 x 乘 1.7 后,逻辑斯蒂函数值和正
态卵形函数值之差将小于 0.01。故使用逻辑斯蒂函数作为项目反应模型也是合理的。
2. 双参数逻辑斯蒂模型
式中,D 为量表因子,通常取 1.7。 其他参数意义和正态卵形函数中的参数意义一样。
双参数逻辑斯蒂模型也只考虑项目难度和被试的特质对正确率的影响,不考虑猜测因素的影
(8)
响。
3. 三参数逻辑斯蒂模型
增加了猜测参数 ,其他参数意义和双参数逻辑斯蒂模型中的参数一样
4. 单参数逻辑斯蒂模型(拉希模型)
(9)
(10)
当被试的能力与项目难度相等时,被试有 50%的机率回答正确。若被试能力比项目难
度要高,则被试就有高于 50%的机率答对此题。相反,如果被试的能力低于该项目难度,那
么他答对该题的概率则小于 50%。
Linacre 将公式进行对数转换,将顺序量尺用 logit 转换为等距量尺,并将量尺的单位定
为 logits。公式如下:
(11)
xixeP()1e=+iiiiDa(b)iDa(b)eP()1e−−=+iiiiDa(b)iiDa(b)eP()c(1c)1e−−=+−+icii(b)i(b)eP()1e−−=+iiiiplog()b1p=−−
拉希模型不将题目区分度和猜测度定义为测量模型中的参数, 而将之视为测量过程中
应该尽量避免并小心诊断其影响的“噪音”,Wright 指出,如果同一测验中的题目具有不同区
分度,说明存在题目偏见或者该测验具备多维度特性。至于猜测度,它反映的是答题者的一
种不可靠性,同样不应该被视为题目的一个参数。而从(10)式也可以看出,拉希模型有两
个附加假设,即项目区分度相等和能力很低的考生没有猜对题目的可能性。但实际上,当这
些假设没有完全满足时,该模型还是相当稳健的。模型中的能力和难度的原点是任意的,可
以将量表的任何合适位置确定为零点,从而避免负的能力值和项目难度值的出现。也可以引
入任意的量表因子,消除 θ 和 的小数。
拉希模型的参数分离特点
拉希模型具有参数分离的特点。Wright 和 Stone(1979)指出了客观测量两个相辅相成的
要求。一个是题目难度的标定必须独立于被试样本的分布,另一个要求是对个体能力的测量
必须独立于题目的难度分布。这一特点称为“参数分离”或“参数恒定”。在拉希模型,正确反
应的概率只由个体的能力(θ)和题目的难度(
)所决定。这意味着,只要测验项目符合拉希模
型,对被试能力参数的估计就是独立于所使用的测验项目和无偏的;只要被试是符合该模型
的,对项目参数的估计就是独立于被试样本的能力分布和无偏的。也就是说,拉希模型所提
供的个体能力和题目难度参数,是完全独立样本分布或题目难度分布的。因此,拉希模型符
合客观测量对于参数分离的要求。
拉希分析
很多运行拉希分析的计算机程序(例如,WINSTEPS,ConQuest)提供两种形式的卡方拟
合指标:Outfit Mean Square(Outfit MNSQ)和 Infit Mean Square(Infit MNSQ)。这些拟合指标
都是由残差计算而来。Outfit MNSQ 是残差的均方。Infit MNSQ 则是加权(以方差为加权系
数)后的残差均方。Outfit MNSQ 对极端值(异常数据)比较敏感,因为极端值会产生的较大的
残差。而 Infit MNSQ 对题目难度与个体能力水平相当的数据较为敏感,因为此类数据方差
(加权系数)较大。Outfit MNSQ 和 Infit MNSQ 的取值范围介于 0 到正无穷大。理想值为 1,
意味着实际数据完全与拉希模型相拟合。大于 1(underfit)表示实证数据的变异数多于拉希模
型的预期;小于 1(overfit)表示实证数据的变异数少于拉希模型的预期。从测量的角度来看,
underfit(大于 1)的数据对测量客观性的负面影响要大过 overfit(低于 1)的数据。Underfit 是由
杂乱无章的答案所造成,会直接损害测量的质量。而 overfit 虽然可能会降低测量的效率,但
对测量质量的影响反而不大。Infit MNSQ 和 Outfit MNSQ 可接受的取值范围在很大程度上
取决于研究目的。Linacre 建议取 0.5 至 1.5 的范围,但很多研究选取了更为严格的标准,例
ibib
如,0.7 至 1.3 或 0.8 至 1.4。Infit 和 Outfit 指标也有标准化的形式,分别表达为 Infit ZSTD
和 Outfit ZSTD。Infit ZSTD 和 Outfit ZSTD 服从 t 分布,理想值为 0,标准差为 1。
参考文献
余嘉元. 项目反应理论及其应用[M]. 江苏教育出版社, 1992:1-52.
晏子. 心理科学领域内的客观测量——Rasch 模型之特点及发展趋势[J]. 心理科学进展,
2010, 18(8):1298-1305.
许祖慰. 项目反应理论及其在测验中的应用[M]. 华东师范大学出版社, 1992:31-78.