http://www.paper.edu.cn
应用敏感问题调查模型对大学生作弊情况的
统计与分析
郝诚 1 ,刘蕾 2 ,唐一博 3
1 北京师范大学数学系,北京(100875)
Email: haocheng05@mail.bnu.edu.cn
摘 要: 本文中,我们将在 Warner 模型与 Simmons 模型基础上建立新的敏感问题调查模
型。我们模型的优势在于它可以在保持对被访者的隐私具有保护性的同时进一步减小模型
的方差。这是 Warner 与 Simmons 模型所不能的。我们还将使用此模型对北京师范大学学生
的作弊情况进行统计与分析。
关键词: 敏感问题调查,Warner 模型,Simons 模型
中图分类号: O213
1. 引 言
考试,作为学校教学活动中评估学生掌握知识水平和检测质量的主要方法,在我国高等
教育活动中始终扮演着极为重要的角色。但是,考试过程中作弊现象的存在,一直是严重危
害教育活动有序开展的难题。国外的众多研究表明,大学生考试作弊相当普遍,其比例在
13%一 95%之间;在[1]中,我国教育工作者的调查也发现,30.8%的大学生承认自己在大学
期间有作弊行为,10.6%的大学生承认自己有作弊意图。
北京师范大学学生处 2000 年对大学生作弊问题的数据调查报告[2]显示,学生考试作弊
情况严重。然而,由于在调查过程中可能会出现的学生出于对自身的保护而对调查不配合或
隐瞒真实信息的存在,如何获得尽可能接近真实情况的数据成为对学生作弊现状进行分析的
基础。本文试图通过改进 Warner 的方法与无关问题方法,得到一种更完善、可靠的调查方
法,且用此方法对北京师范大学学生作弊情况进行调查,并对结果进行分析。
2. 敏感问题调查的已有模型及新模型的建立
2.1 背景与已有模型
在敏感问题调查中,为了保护被调查者的隐私,以及减少被调查者故意欺骗回答对调查
结果的干扰,Warner [3] 在 1965 年的论文 A Survey Technique for Eliminating Evasive
Answer Bias中提出了“随机回应模型”。其方法主要思想为:
若要确定被调查人群中具有某一(隐私)属性 A 的人数比例 Aπ ,抽取人群中的一个样
本数为 n 的随机样本。对样本中的每位被调查者,他将有
5.0≠pp
)
(
的几率被要求回答问
题:“你是具有属性 A 吗?”;
p−1
的几率被要求回答问题:“你不具有属性 A 吗?”。而调
1
http://www.paper.edu.cn
查者将不会知道被调查者最终是被要求回答的哪个问题,从而被调查者给出的答案(是/否)
将不会泄露其是否具有属性 A,继而起到保护被调查者隐私的作用。
这时,被调查者回答“是”的概率λ为
πλ
A
=
p
1(
−+
π
A
1)(
−
p
)
其中 Aπ 为具有属性 A 的人数比例。由此,可以得到 Aπ 的表达式
π
A
=
p
1
λ
+−
p
1
2
−
设 n’ 为样本中回答“是”的人数,则λ可以用样本均值 n’/n 进行估计。事实上,如果被调
查者都如实回答,这样的估计是无偏的,见 [3]。于是, Aπ 的无偏估计为
(
=π
)
WA
1
p
−
1
2
{
p
1
+−
n
}'
n
方差为
Var
(
π
)
WA
=
ππ
A
A
1(
−
n
)
+
p
1(
−
p
2(
−
p
)
2)1
n
在 Warner 的论文发表两年后,SIMMONS [4] 在论文 The Unrelated Question
Randomized Response Model: Theoretical Framework 中提出了另外一种隐私调查方法方
法——无关问题方法。其方法主要思想为:
同样要确定被调查人群中具有某一(隐私)属性 A 的人数比例 Aπ ,抽取人群中的一个
样本数为 n 的随机样本。考虑另外一种非隐私属性 Y,使得当被调查者被问到是否具有此属
性时,被调查者将会如实回答。(例如:调查者是否在 8 月出生)。设具有属性 Y 的人数比
例为 Yπ , Yπ 并不需要预先知道,如果已知,可以检验最终估计的正确性,见 [3]。
将样本分成两个子样本 1,2(样本数分别为 n1 和 n2)。在样本 i(i = 1,2)中,被调查者将
ip
以 的几率回答问题:“你是具有属性 A 吗?”
的几率回答问题:“你具有属性 Y 吗?”
ip−1
设两个样本中被调查者回答“是”的概率为 1λ和 2λ ,则
p
π
A
1
p
π
A
2
1(
−+
1(
−+
联立求解得到
p
1
p
2
)
λπ
Y
1
)
λπ
2
=
=
Y
2
http://www.paper.edu.cn
1(
−
p
1
)
λ
2
p
2
π
A
=
π
Y
=
)
−
1(
λ
1
p
2
p
1
λλ
1
2
p
p
2
p
1
−
−
2
−
−
p
1
设样本 i(i=1,2)中回答“是”的人数为 ni’,用 ni’/ni 去估计 iλ,就可以得到 Aπ 与 Yπ 的估计
n
'
1
n
1
(
=π
)
UA
1(
−
p
2
)
−
n
'
1
n
1
p
2
−
p
1
−
n
n
p
'
2
2
2
π
Y
=
1(
−
p
1
)
n
n
p
'
2
2
2
p
1
−
p
1
Warner 的随机回应方法一样,无关问题方法在被调查者如实回答的情况下是无偏的,且
与
方差为
Var
(
π
)
UA
=
1
−
p
2
2
)
(
p
1
1({
λ
1
−
1)(
λ
1
n
1
−
p
2
2
)
+
2.2 新模型的建立
2
−
1(
1)(
λλ
2
n
2
−
p
1
2
})
在
[2]、[3
] 中,作者讨论了如果选取 p , 及ip
Yπ
的不同选取方式对方差的影响。为
使方差获得最小值, p 及 ip 需要取 1 或 0,但是这将不能起到保护被调查者隐私的作用。
为此,我们通过结合 Warner 的模型与 Simmons 的无关问题模型,提出的新模型来试图解
决这个问题。
要确定被调查人群中具有某一(隐私)属性 A 的人数比例 Aπ ,抽取人群中的一个样本
同时考虑属性“非 A”及另外一种非隐私属性 Y。属性 Y 的选取要求当
数为 n
被调查者被问到是否具有此属性时,被调查者将会如实回答。设具有属性 Y 的人数比例为
机样本。
的随
Yπ ,且 Yπ 已知。(例如,属性 为“被调查者在 月出生”
Y
8
,则当
样本容量足够大时,可
以认为π =1/12)
Y
对样本中的每位被调查者,他将有
p 的几率被要求回答问题:
“你是具有属性
A 吗?”;
q
的几率被要求回答问题:“你不具有属性 A 吗?”;
1 p q
− − 的几率被要求回答问题:“你
具有属性 Y 吗?”
。
设
λ为样本中回答“是”的概率,则有
(1
λ π π
Y
+
=
p
A
p q
− −
)
(1
+ −
π
A
)
q
3
其中
Aπ 为具有属性 A 的人数比例, Yπ 为具有属性 Y 的人数比例, Yπ
已知。由此,得
http://www.paper.edu.cn
到 Aπ 的表达式
π
A
=
λ
− − − −
p q
q
(1
p q
−
) Y
π
设 n’为样本中回答“是”的人数,则根据极大似然的原理,
λ的无偏估计为
ˆ =λ
n'
n
,
所以 Aπ 的无偏估计为:
n
'
n
∧
π
A
=
方差为
−−−−
qp
q
1(
qp
−
)
π
Y
其中
计算
Var
(
π
A
)
=
1(
)
−
λλ
qpn
2)
(
−
(1
− −
p q
)
(1
+ −
π
A
)
q
。
λ π π
Y
=
+
A
p
Var π 的偏导数:
( A
)
(
qp
−
)
(
qp
−
)
∂
p
∂
∂
q
∂
∂
p
∂
∂
q
∂
Var
(
π
A
)
=
Var
(
π
A
)
=
1([
)
λλλλ
1(2
)]
−
−
−
qpn
(
−
3)
1([
1(2
λλλ
)]
+
−
pn
(
−
q
3)
−
)
λ
为使得方差取最小值,需且仅需
∂
p
∂
Var
(
π
A
)
=
∂
q
∂
Var
(
π
A
)
=
0
。
联立方程,得到方差取到最小值的充分条件为:
5.0=Yπ
=− qp
1(2
)
λλ
−
1)(
(
ππ
−
−
Y
A
)2
λ
(*)
(1
− −
p q
)
(1
+ −
π
A
)
q
。将λ带入,则(*)式为 qp, 的二次方程。
其中
λ π π
Y
=
+
A
p
在数学软件中(如 Matlab)可对(*)式对于不同的 Aπ 求解。
4
http://www.paper.edu.cn
由此,对于预先可估计的 Aπ ,可以取得适当的
减小方差。这是 Warner 与 Simmons 的模型所不能的。
qp,
同时
使得模型保持具有保护隐私作用的
3. 模型的检验及数据处理
在
2008 年 2-4 月间,我们用上述建立的新模型对北京师范大学的学生进行了调查统计。
调查采用了在线调查的方式(survey.512j.c ),这样被调查人员不用担心自己的身份被暴
出来,所选问题答案的真实性可以得到较高的保证。在这次调查中,总共有 4 院系的同学
露
106 人参加了这次调查。调查问卷见附录A。
总计
om
3.1 两次被调查群体的相同性检验
为对用上述方法调
查的结果与 2000 年北京师范大学学生处对学生作弊情况报告中的统
(见 [2])进行对比,我们需要说明指出两次结果的可比性。为此,我们需要验证被
计结果
调查者群体是相同的(视此期间学生作弊情况没有发生变化)。
这里,我们主要应用 T 检验的方法来给出验证。下面为检验方法,对数据的检验过程
将在下一小节给出。
首先,我们要验证正态性假定是否成立。 正态性假定是否成立,对于数据分析结论的
可靠性至关重要。当样本容量较小时,考虑 Shapiro-Wilks 的 W 统计量来检验正态性。W 统
计 量 是 基 于 次 序 统 计 量 线 性 组 合 平 方 的 方 差 最 佳 估 计 与 通 常 校 正 平 方 和 估 计 之 比
应接近于 1。在单变量过
(0
http://www.paper.edu.cn
态性假设。
定正
若正态性检验成立,我们便可以对两次的样本的相同性(是否
分析的手段是通过比较两组的均值来判断它们是否有显著差别。
来自同一总体)进行验证。
两样本 T 检验是比较独立组的一种参数检验。此检验的一般假设是两组的均值相等(零
假设)和均值不等(对立假设)。做此假设要求数据满足三个假定:一是观测是独立的,二
是每组观测来自正态总体的样本,三是两个独立组方差相等。
ix
i
{ }(
设 1
x
1,2,
= L 和 2
j
n
1
{
)
}(
j
1,2,
= L
n 是来自两个独立组 1X 和 2X 的随机
2
)
样本
(假设
X
1
~
σμN
2
1
(
,
1
)
, ~2 N
X
(
2
2 σμ
2
,
)
,且 2
1
2σ σ= )。检验假
2
设 H0
:μ μ= 。
2
1
x
两个独立组的样本均值分别记为 1
x= ,检验其总体均值是否相等的统计量为
2
t
=
s
其中 是合并方差:
2s
x
1
(
−
1
n
1
2
x
2
+
1
n
2
)
2
s
=
[(
n
1
−
1)
n
1
s
2
1
+
(
+
n
2
n
−
2
2
−
1)
s
2
2
]
1s 和 分别是两组的样本方差:
2
2s
2
s
2
1
=
1
n −
1(
1)
−∑
x
i
1
(
i
2
,x
1
)
s
2
2
=
1
− ∑
1)
j
n
2(
(
x
j
1
−
x
2
2
)
n
当两总体均值相等的假设成立时,统计量 t 服从自由度为 1
n+
2
− 的 t 分布。
2
上述这个 t 统计量是建立在两总体方差相等( 2
1
2σ σ= )基础。如何检验两总体方差
2
相等呢?使用以下形式的 统计量 来检验方差相等的假设:
F
'F
'
F
=
s
max(
2
1
s
min(
2
1
,
,
s
2
2
s
2
2
)
)
'F 是双边 F 检验统计量。在两总体方差不等假设下,使用的是以下近似 t 统计量:
'
t
=
x
1
s
2
1
n
1
−
x
2
s
2
2
n
2
+
6
http://www.paper.edu.cn
3.2 调查结果与数据分析
在线调查共有两个问题:
第一个问题与[2]中调查问卷的第一个问题相同,为:“您对我们学校考试作弊现象
程度的看法是什么?” 备被选五个答案:很普遍、普遍、较少、没有、说不清。
设置此问题的目的为检验这次调查的样本群与文章[2]中调查的样本群是否为同一
总体。
第二个问题将在三个备选问题中按预设概率随机挑选出一
个供被调查对象回答。三
个问题分别为:“您在大学考试中是否有过欺骗行为?”、“您在大学考试中是否从
未有过欺骗行为?”及“您周围的同学在大学考试中是否有过欺骗行为?”。三个
问题出现的概率分别为 0.2,0.5 及 0.3。
由此,我们将大致的估计在北京师范大学考试作弊的比率。
对于第一个问题的结果与[2]中调查问卷里同一问题的结果,我们依据 3.1 中的方法使
用了 SAS 软件来对数据进行分析,程序见附录 B:
1) 验证正态性假定是否成立:调用单变量 (UNIVARIATE)过程,并规定选项 normal
要求进行正态性检验。结果证明,结果是符合正态性检验的。
2)
之前,首先确定检验的显著性水平
接下来利用 SAS 软件进行两组 t 检验。在此
0.05α=
;然后检查上述三个假定是否成立:观测是独立的,这点很显然;上述
的正态性检验确定了样本是来自与正态总体的;下面将检查独立组方差是否相等。
最后进行检验。
在 SAS 中,我们利用 TTEST 过程进行检验。
TTEST 过程首先检验两独立组的方差是否相等,根据输出 p 为 0.6132,这说明方
差无显著差异。然后给出方差相等假定满足时的精确两样本 t 检验及方差相等条件
7
不满足时的近似检验,当方差相等时,p 值为 0.9987,这说明两次样本无显著性
差异。
http://www.paper.edu.cn
至此,我们通过检验方法得到两次样本属于同一总体,
第二题的回答中,回答“是”的有 62 人,“否”的 44 人,故
∧
44
1λ= −
06
1
= −
1 0.4151 0.5849
=
由大学
生的作弊现状,我们不妨设对无关问题“您周围的同学在大学考试中是否有过欺
骗行为?”回答均为是,即πY = 1。
代入
n
'
n
∧
π =
A
− − − −
p q
q
(1
p q
−
) Y
π
得到曾经有过作弊行为的学生人数所占比例为:
n
'
n
π
A
=
−−−−
qp
q
1(
qp
−
)
π
Y
.0
=
5849
−
−
5.02.0
1*3.05.0
−
=
.0
417
4.
数据对比与结论
在北京师范大学学生处 2000 年关于学生作弊情况的数据报告(见 [2])中指出:
“……问卷调查表明,(北京师范大学)学生作弊是一个较普遍的现象。“想作弊”者占
8