中国科技论文在线
http://www.paper.edu.cn
NIDA 模型参数估计的 MCMC 算法实现及
模型性能研究#
蔡艳,涂冬波*
(江西师范大学心理学院,南昌,330022)
摘要:NIDA 模型提出的初衷是为了弥补 DINA 模型的不足,达到更好地区分不同认知状态
的被试的目的。因此本文针对 NIDA 模型,利用 Monte Carlo 模拟方法,采用国际上常用的
MCMC 算法实现了模型的参数估计,并探讨了模型的性能和参数估计的影响因素。结果表
明:(1) 模型具有较高的精度和稳健性;(2) 样本容量和属性数都是 NIDA 模型参数估计的
影响因素,样本容量越大估计精度越高,属性数越大,估计精度越低;(3) 在中或大样本容
量,且测量属性数小于 7 时,模型是可供选用的。
关键词:NIDA 模型;MCMC 算法;影响因素;模型性能
中图分类号:B841
5
10
15
20
25
30
35
40
The parameter estimation and properties of NIDA model
using MCMC algorithm
CAI Yang, TU Dongbo
(Pshchology school of JaingXi normal nuiversity, NanChang,330022)
Abstract: Because of its advantages over other models, DINA model is considered as one of the
most popular cognitive diagnosis model applied in practice. But some researchers think there’s
some deficiencies existed in DINA model. One of these is that it only could identify the examinees
as two different groups at item level. Given that, NIDA model was developed which could almost
distinguish each group. According to this wonderful characteristic, this paper tries to realize the
parameters estimation of NIDA model, and investigate its properties.
In this paper, the MCMC algorithm and Monte Carlo method are used. The findings showed that:
(1) The MCMC algorithm is a applicable method. It reflects that the model holds relatively
strong robustness and great precisions of parameter estimation.
(2) The sample size and the number of attributes both are the effects on parameter estimation.
The larger the sample size is, the greater the precisions of parameter estimation will be. And the
more the number of the attributes is, the less the precision will be.
(3) Considered the condition that the sample size is moderate or large and the number of
attributes is 7, the DINA model is suggested to be selected and applied. Of course, it is only an
advice. In real work, there’s many other aspects must take into consideration.
Key words: NIDA model, MCMC algorithm, influence effects, properties of model
0 引言
认知诊断(cognitive diagnosis)发展到今天已取得了大量的研究成果,其主要标志之一
是认知诊断模型(cognitive diagnosis models,CDMS)的大量产生,据不完全统计,从 2008
年至 2012 年,测量学者们已开发的 CDM 数量由 60 多种增至 100 多种[1]。在众多认知诊断
模型中,DINA(deterministic inputs, noisy “and” gate model)[2]模型由于模型简单,模型
参数解释性好在国内外得到了广泛的应用[3] [4];同时也有研究[5] [6]表明该模型具有较高的诊
断正确率,因此具有较好的发展前景。DINA 模型在每个项目上将被试分成两类:一类是掌
基金项目:高等院校博士点基金项目(20123604120001,20103604120001,20103604110002)
作者简介:蔡艳(1979-),女,副教授,主要研究方向为心理统计与测量. E-mail: cy1979123@aliyun.com
- 1 -
中国科技论文在线
http://www.paper.edu.cn
45
握项目所有属性的被试(即全掌握组),另一类是未全掌握项目所有属性的被试(即未全掌
握组),第一类被试的答对项目的概率为 1-s,第二类被试答对项目的概率为 g。第二类被
试中包含所有属性均未掌握被试和部分属性未掌握被试,但 DINA 模型认为这些被试的答对
概率完全一致。即 DINA 模型在每一个项目上只能区分出两类被试(即全掌握组和未全掌握
组),而不能区分出更多不同知识状态的被试,这应该是 DINA 模型的一个不足之处。NIDA
50
(noisy inputs, deterministic, “and” gate, NIDA;Junker & Sijtsma,2001)模型的出现有望
改善 DINA 模型的这一不足。本研究拟探讨 NIDA 模型的参数估计,采用国际上常用的
MCMC 算法实现其参数估计,并探讨模型的性能,以期为国内相关研究者提供借鉴。
1 NIDA 模型及其参数估计 MCMC 算法简介
1.1 NIDA 模型简介
55
NIDA 模拟的项目反应函数为:
其中: :描述被试 i 与项目 j 所考核的属性 k 的关系。 若
,说明被试(可
能掌握属性 k)i 在项目 j 上正确应用属性 k;若
,说明被试 i 在项目 j 上错误应用属
60
性 k。
表示被试掌握属性 k,但错误应用属性 k 的概率。
在被试及项目局部独立性假设下,NIDA 模型的似然函数为:
:表示被试未掌握属性 k,但正确应用属性 k 的概率。
与 DINA 相比,NIDA 模型的参数是基于属性的参数(如 和 ),而 DINA 模型是基于
(公式 3)
65
项目的参数(如 和 )。
1.2 NIDA 模型参数估计的 MCMC 算法
(一)参数的先验分布
70
以上参数的近似满条件分布为:
(二) M-H 抽样过程
所有待估参数均采用 Gibbs 抽样下的 M-H 算法进行估计:
75
(1)
参数
分别从均匀分布
和
中随机
抽取(设定
),
向
转移概率计算公式为:
- 2 -
KkkkiijikjijkgsYP11)1()|1(ijkijk1ijk0ij)1,1|0(jkikijkkPs)1,0|1(jkikijkkPgN1111111111;,iJjyKkqkkyKkqkkijjkikikijjkikikgsgsgsLkskgjsjg)1,2,1,4.0(4~1)2,1,6.0,0(4~BetasBetag)1))0(17.1exp(1(~Bernoulli)();,(),,|(PgsLgsYP)()();,(),|,(gPsPgsLYgsPgs,11,tktkgs)(,stkstkssU),(gtjggtjgU1.0gstktkgs,11,tktkgs
中国科技论文在线
http://www.paper.edu.cn
将此概率与一随机数
相比较,若大于等于 ,则接受转移,否则不接受转移。
80
(2) 参数
从伯努利分布
中随机抽取,
向
转移概率计算公式为:
将此概率与一随机数
相比较,若大于等于 ,则接受转移,否则不接受转移。
85
2 实验一:NIDA 模型参数估计 MCMC 算法的实现及估计精度
采用 Monte Carlo 模拟方法验证本研究设计的 MCMC 算法的可行性及其估计的精度。
2.1 属性个数、测验长度及被试人数
为了便于说明问题,本实验以无结构型属性层级结构为例,固定认知属性个数(5 个)、
测验项目数(31 题)及测验人数(1000 人)。
90
2.2 Monte Carlo 模拟过程
(1)给定 NIDA 模型参数分布,并从相应分布中随机生成参数真值。其中项目参数 s 和
g 从均匀分布 U(0,0.3)中随机抽取生成;被试掌握属性共 25=32 种,根据被试属性掌握数为
正态分布随机生成被试的属性掌握模式真值。项目数为 25-1=31 题,其考核属性(即 Q 矩阵)
即为所有可能的项目考核模式。
95
(2)据参数真值及 NIDA 模型的项目反应函数生成被试得分矩阵。
(3)根据生成的得分矩阵采用 NIDA 模型的自编 MCMC 算法软件再估计所有参数。
(4)将自编 MCMC 算法软件估计出的参数与第(1)步的参数真值进行比较,以考察
参数估计的精度。
(5)重复(1)至(4)步 30 次,即重复实验 30 次,减少随机误差。
100
2.3 评价指标
(1)平均绝对离差指标(ABSE)
ABSE 反映了参数估计值与真值之间的绝对偏离程度,该值越小说明估计越准,能考察
项目参数估计的返真性或精确性。
(2)采用属性的边际判准率(Marginal Match Ratio, MMR)和模式判准率(Pattern Match Ration,
105
PMR)两个指标评价被试属性诊断准确率。
2.4 结果
实验序号
1
2
3
4
5
6
7
表 1 NIDA 模型参数估计的返真性(5K1000 人)
属性判断率
参数 s 和 g 返真性(ABSE)
MMR
0.9630
0.9700
0.9586
0.9444
0.9474
0.9568
0.9676
s
0.0100
0.0073
0.0075
0.0080
0.0120
0.0123
0.0089
PMR
0.8430
0.8690
0.8260
0.7770
0.7750
0.8250
0.8620
- 3 -
g
0.0069
0.0087
0.0091
0.0079
0.0118
0.0089
0.0063
1,)()();,()()();,(min),,,(1111111tttiktttttikttttgpspgsLgpspgsLgsgsp)1,0(~Urr1tik)5.0(Bernoullitik1tik1,)();,()();,(min),(111ttikttttiktttiktikpgsLpgsLp)1,0(~Urr
中国科技论文在线
http://www.paper.edu.cn
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
Mean
Std.
0.9604
0.9592
0.9708
0.9498
0.9588
0.9608
0.9584
0.9472
0.9468
0.9402
0.9526
0.9684
0.9578
0.9544
0.9504
0.9534
0.9644
0.9320
0.9730
0.9598
0.9760
0.9652
0.9628
0.9577
0.0101
0.8280
0.8200
0.8810
0.7850
0.8250
0.8330
0.8200
0.7830
0.7890
0.7630
0.8020
0.8580
0.8250
0.8070
0.7890
0.8110
0.8460
0.7290
0.8800
0.8310
0.8950
0.8490
0.8410
0.8222
0.0380
0.0126
0.0075
0.0038
0.0075
0.0096
0.0066
0.0067
0.0094
0.0079
0.0128
0.0100
0.0053
0.0040
0.0162
0.0084
0.0158
0.0117
0.0096
0.0070
0.0094
0.0068
0.0055
0.0077
0.0089
0.0030
0.0049
0.0037
0.0055
0.0082
0.0028
0.0054
0.0047
0.0078
0.0089
0.0068
0.0035
0.0077
0.0054
0.0057
0.0099
0.0070
0.0049
0.0082
0.0087
0.0095
0.0049
0.0072
0.0040
0.0068
0.0022
从表 1 可知,NIDA 模型的属性边际判准率(MMR)高达 95%以上,模式判准率(PMR)
110
也在 80%以上,表明 NIDA 模型具有较高的属性判准率,也即对被试属性参数( )的估计
精度比较高;表 1 中,NIDA 模型对参数 s 和 g 两参数估计的返真性(ABSE)分别为 0.0089
和 0.0068,估计误差非常小;同时,不论是对被试属性参数( )还是参数 s 和 g,30 次实
验结果的标准差也较小,说明模型对参数估计具有一定的稳定性。
总之,实验一说明采用 MCMC 算法来估计 NIDA 模型参数具有较高的精度,采用 MCMC
115
算法实现 NIDA 模型参数估计具有一定的可行性。
3 实验二:不同样本容量下 NIDA 模型性能
本实验主要考察样本容量的变化对模型诊断正确率的影响,为相关模型的应用研究者提
供参考。此处样本容量主要考察被试样本容量和试题样本容量。为便于说明问题及简化实验,
120
本实验主要设计三种样本容量,分别为:小样本容量(200 名被试 20 道试题,简记为 200/20),
中等样本容量(1000 名被试 60 道试题,简记为 1000/60)和大样本容量(5000 名被试 100
道试题,简记为 5000/100)。
3.1 Monte Carlo 模拟过程
实验二的模拟过程与实验一基本上一致,只是实验二的项目数及被试数均要进行变化。
125
3.2 评价指标
仍然采用实验一中的 ABSE、MMR 和 PMR 三个指标。
3.3 结果
从表 2 可知:不论是 NIDA 模型的被试属性参数还是 s,g 参数的估计精度都会随着样
- 4 -
中国科技论文在线
http://www.paper.edu.cn
本容量的增加而增加,当样本容量为中或大样本容量时,NIDA 模型的被试属性参数的 MMR
130
大于 98%,PMR 大于 94%, s,g 参数的 ABSE 值均小于 0.01,说明模型具有很高的返真
性。值得注意的是,即使是在小样本容量条件下,NIDA 模型也具有较好的返真性,其被试
属性参数的 MMR 高达 95.2%,PMR 也接近 80%, s,g 参数的 ABSE 值也小于 0.02。
表 2 不同样本容量下 NIDA 模型的性能
属性判准率
项目参数返真性(ABSE)
MMR
0.952
0.9867
0.9983
PMR
0.7932
0.9400
0.9919
s
0.0196
0.0062
0.0036
g
0.0167
0.0044
0.0034
样本容量
小样本容量
中等样本容量
大样本容量
135
4 实验三:不同诊断属性数 NIDA 模型的性能
实验三主要比较不同认知属性数下,NIDA 模型的判断率。认知属性的个数分别为 4、5、
6 和 7 个,共 4 个水平,以充分考察属性数的变化对不同模型诊断正确率的影响。
4.1 实验数据模拟过程
140
采用 Monte Carlo 模拟方法进行,知识状态的分布形态固定为正态分布,测验项目数固
定为 60。其被试知识状态、被试得分矩阵的模拟与实验一基本相同,Q 矩阵随机生成(模
拟时尽量保证 Q 矩阵中含有 R 阵),实验重复 30 次。
4.2 评价指标
采用实验一和实验二中的 ABSE、MMR 和 PMR 三个指标。
145
4.3 结果
表 3 不同样本属性数下 NIDA 模型的性能
属性判准率
项目参数返真性(ABSE)
属性数
4K
5K
6K
7K
MMR
0.9794
0.9568
0.9473
0.936
PMR
0.9242
0.8187
0.7406
0.6481
s
0.0085
0.0093
0.0112
0.0091
g
0.0056
0.0069
0.0081
0.0091
从表 3 可知,总体上,不论是 NIDA 模型的被试属性参数还是 s,g 参数的估计精度都
会随着属性数的增加而下降。具体地,被试属性参数的 MMR 指标从 97.94%下降至 93.6%,
150
降幅 4.34%,说明 MMR 具有较高的返真性,且属性数对 MMR 指标的影响相对较小;而 PMR
指标从 92.42%降至 64.81%,降幅 27.61%,说明属性数对 PMR 指标的影响较大;当属性数
为 4 或 5 时,PMR 具有较好的返真性;当属性数为 6 时,PMR 的返真性适中;但当属性数
为 7 时,PMR 的返真性相对较差。参数 s,g 的 ABSE 指标分从 0.0085 和 0.0056 上升到 0.0112
和 0.0091,升幅分别为 0.0027 和 0.0035,说明参数 s,g 具有较高的返真性,属性数对参数
155
s 的影响要小于对参数 g 的影响。
5 总结与讨论
本文采用 MCMC 参数估计方法和 Monte Carlo 模拟研究发现:NIDA 模型参数具有较高
的精度和稳健性,采用 MCMC 算法实现 NIDA 模型参数估计具有一定的可行性。样本容量
- 5 -
中国科技论文在线
http://www.paper.edu.cn
160
和属性数都是 NIDA 模型参数估计的影响因素,样本容量越大估计精度越高,属性数越大,
估计精度越低。但这两个因素对各返真性指标的影响程度不一样,样本容量对各指标的影响
程度由高到低依次为:PMR,ABSE(s 高于 g),MMR,在任何一种样本容量下 NIDA 模型
都具有较好的返真性,但当样本容量较小时,其 PMR 的返真性相对较低;属性数对各指标
的影响程度由高到低依次为:PMR,ABSE(g 高于 s),MMR,当属性数大于等于 7 时,模
165
型的 PMR 精度较差。因此,我们建议在中或大样本容量,且测量属性数小于 7 时,可以考
虑选用 NIDA 模型。
当然本研究只是抛砖引玉,有很多相关问题的研究亟待进一步完善,如:如本研究只讨
论了一种试验条件下的模型稳健性,在其它实验条件下结论是否一致还有待进一步验证;模
拟研究中模型具有较高的诊断准确率,但 NIDA 模型在实际中的应用效果如何有待探讨,其
170
对认知模式的区分能力有待验证等等,期望随着这些问题的解决,能进一步促进认知诊断的
发展和应用,体现认知诊断的价值。
175
[参考文献] (References)
180
185
[1] Fu, J., & Li, Y. Cognitively diagnostic psychometric models: An integrative review[Z]. ETS 185 research
report,2008.
[2] Junker, B., & Sijtsma, K. Cognitive assessment models with few assumptions, and connections with
nonparametric item response theory[J]. Applied Psychological Measurement, 2001,25(3), 258-272.
[3] de la Torre, J. Model evaluation and multiple strategies in cognitive diagnosis: An analysis of fraction
subtraction data[J]. Psychometrika.2008,73(4), 595-624.
[4] de la Torre, J. , & Douglas, J. The generalized DINA model framework[J]. Psychometrika. 2011, 76(2),
179-199.
[5] Cheng, Y. Computerized adaptive testing: New development and applications[D]. Unpublished doctoral
dissertation, University of Illinois at Urbana-Champaign,2008.
[6] Rupp, A., Templin, J., & Henson, R. Diagnostic measurement: Theory, methods, and 210 applications[M].
New York: Guilford Press,2010.
- 6 -