随机事件及其概率
。
古典概型公式:PA =包含样本点数
Ω所含样本点数
对任意的两个事件 A 和 B:PA∪B =PA +PB −P(AB)。
条件概率公式:PAB =()
() 。
全概率公式:PB = =1 (|)
逆概率公式:| =() =
=1 (|)
事件 A 和 B 相互独立 =()。
事件 A 和 B 互斥+ = +()。相加互斥,相乘独立。
事件对 A 和 B、 和 B、A 和 、 和 ,如果其中有一对相互独立,其余三对也独立。
。
。
随机变量及其分布
随机变量:设 E 为一随机事件,S 为 E 的样本空间,那么 X=X(w),w∈S 为单值实函数,
则称 X 为随机变量。
分布函数:设 X 为随机变量,x 为实数,则称函数 F(x)=P(X≤x)为 X 的分布函数。
分布函数的性质:
1、 F(-∞)=0。
2、 F(∞)=1。
3、 F(x)是自变量 x 的非降函数。
4、 F(x)对自变量 x 右连续,即对任意实数 x,F(x+0)=F(x)。
系列等式为随机变量 X 的分布律。
1、0-1 分布
设离散型变量 X 的可能取值为1,2,…,∞,且 X 取这些值的概率为:P =。则称上述一
如果 X 只有{0,1}两个取值,且P=1 =p;PX=0 =1−p。
X~B(n,p);P= =(1−)−。
X~P(λ);P= =−! 。
(1)、把时间段[0,1]分为等长的 n 段。则在任意一段恰发生一个事故的概率正比与该段
2、二项分布
3、泊松分布
时间长度λ/n。
4、超几何分布
(2)、又因为 n 非常大时,每个时间段时间很短,所以发生两次或更多次事故的概率为
0,因此该段时间不发生事故的概率为 1-λ/n。
(3)、所有的 n 个时间段,是否发生事故独立。因此在[0,1]时间段发生的事故数 X,为
随机变量 X 表示,从 N 个样本中(有 M 个次品)随机抽取 n 个样品,这 n 个样品中的次品
当 n 趋于无穷时,得到泊松分布。
n 个时间段内发生事故的段数,所以概率为PX=i =()(1−)−。
个数。PX=m =−− 。
那么PX=i =+−
− (1−)。
当 N 趋于无穷时,等价于二项分布。
负指数二项展开式(可用来计算均值):
次品率为 p,那么当有放回抽取时,当抽到第 r 个次品时,以 X 记为已检测处的正品,
5、 负二项分布
(1−)−=
=0∞ +−
−
注意 r=1 的特殊情况。
6、 几何分布
当负二项分布中的 r=1 时,分布称为几何分布。
Fx = −∞
概率密度:
随机变量 X 的分布函数 F(X),如果存在一个非负可积函数 f(x),使得对于任意的 x 满足:
=Φ0.25 −Φ(−1.25)。
则称 X 为连续型随机变量,f(x)为 X 的概率密度。若 f(x)在 x 点处连续,
那么 F’(x)=f(x)
1、 均匀分布
2、 正态分布
元器件在时刻 x 正常工作的条件下,其失效率总保持为某个常数λ(与 x 无关)。即
3、 指数分布
若 X~N(1.5,4),那么P−1≤X≤2 =P −1−1.52 ≤−1.52 ≤2−1.52
limℎ→0(≤≤+ℎ|>)
=
1−()=。
通过贝叶斯公式 ()'
然后求得指数分布fx = −0 。
元器件在时刻 x 正常工作的条件下,其失效率总保持为某个常数λ(与 x 有关)。
4、 威布尔分布
ℎ
()'
1−()=
求得fx = (+1)−+1
0
。
所以
随机变量函数的概率密度(和、差、乘、除、min、max)
离散情况比较简单(略)。
连续型分布:
在(Y1,Y2)上的 A 区域经过变换得到(X1,X2)的 B 区域,因此有:
随机多维变量,以二维为例:设(X1,X2)的密度函数为 f(x1,x2),变量 Y1,Y2 都是(X1,
=≤ = ≤ =≤∗ =(∗)
随机单变量 X,具有概率密度();如果 Y=g(x),那么求随机变量 Y 的概率密度:
X2)的函数1=11,2,2=2(1,2)。我们假设(X1,X2)到(Y1,Y2)是一一对应
的,因而有逆变换1=ℎ11,2,2=ℎ2(1,2),雅可比矩阵为
, = / /
/ /
P Y1,Y2 ∈A =P(X1,X2 ∈B)
1,2
1,2 =ℎ11,2,ℎ21,2
, ∈ = ,,, ,
实验 E 的所有事件群为 A1,A2,…,An(掷色子有 6 个事件)。那么在 N 次试验后,表示
事件出现的次数,因此 X=(1,2,…,)为多维随机变量,且1+2+…+=N。
多维随机变量:
1、 多项分布(与二项分布对应)
P1=1,2=2,…,= =
!
1!2!…!1122…
2、 多维正太分布
3、 多维均匀分布
多维随机变量的分布函数性质(用二维举例):
1、0<=F(x,y)<=1。
2、F(x,y)是变量 x 和 y 的不减函数。
3、对于任意固定的 y,lim→−∞(,)=0。对于任意固定的 x,lim→−∞(,)=0。并且
→−∞,→−∞ =0;→∞,→∞ =1。
−∞ (,)
4、, =≤,≤ = −∞
=1。如果(,)连续,那么, =2(,)
其中, ≥0;−∞∞ −∞∞(,)
。
。
边缘分布:
设 f(x,y)是(X,Y)的联合概率密度,那么边缘概率密度为:
条件概率分布:(使用条件概率和边缘分布进行求解)
∞,
; = −∞
∞,
= −∞
离散:PX=xY=y =(=,=)
(=)
(a≤Y≤b) = −∞
连续:≤≤≤ =(X≤x,a≤Y≤b)
1,212
−∞∞ 1,212
两边对 x 求导得到=≤≤ = 1,22
/ −∞∞1,212
当 a=b 时,fX=xY=a =,/−∞∞1,1
fX,Y =fXfYX =fXf(Y);PX,Y =PXP(Y);FX,Y =FXF(Y)。
如果,,…, =…();那么的边缘概率密度与gixi 只差一个常
随机变量独立性:
如果 f(X|Y)不依赖于 Y,只是 X 的函数,这时称 X 和 Y 两个随机变量概率意义上独立。
数因子。
;
。
。
随机变量的数字特征
1、 数学期望
A、 若 c 是常数,那么 E(c)=c。
B、 设 X 为随机变量,c 为常数,则有 E(cX)=cE(X)。
C、 设 X,Y 为随机变量,则有 E(X+Y)=E(X)+E(Y)。
D、 设 X,Y 为相互独立的随机变量,则有 E(XY)=E(X)E(Y)。
2、中位数
3、方差
A、E{(X-E(X))2}。
B、E(X2)-[E(X)]2。
C、设 c 为常数,那么 D(cX)=c2D(X)。
D、设 X,Y 为相互独立的随机变量,则有 D(aX+bY)=a2D(X)+ b2D(Y)。
E、设 X,Y 为任意的随机变量,则有 D(X+Y)= D(X)+D(Y)+ 2Cov(X,Y)。
名称
期望
方差
参数
概率分布/密度
P=1 =p
(1−)−
+−1
−1 (1−)
X~N(u,σ2)
0-1 分布
二项分布
负二项分布
正态分布
p
np
r(1-p)/p
u
p(1-p)
np(1-p)
r(1-p)/p2
σ2
−!
fx = −0
fx = 1−
自由度为 n
自由度为 n
1/
(a+b)/2
n
0
1/
(b-a)2/12
2n
n/(n-2)
自由度为(m,n)
n/(n-2)
2n2(m+n-2)/[m(n-2)2(n-4)]
泊松分布
指数分布
均匀分布
卡方分布
t 分布
F 分布
卡方分布:
t 分布:
服从自由
服
从自由度为 2n 的卡方分布。
D、 若 X1,…,Xn 相互独立,且都服从正态分布 N(u,σ2);
A、 若 X1,…,Xn 相互独立,且都服从正态分布 N(0,1),那么Y= =1 2
度为 n 的卡方分布2。
B、 若 X1 与 X2 相互独立,且 X1~2,X2~2 ,那么 X1+X2~+2 。
C、 若 X1,…,Xn 相互独立,且都服从指数分布fx = −0 ,那么Y=2 =1
=1
2 ~−12 。
A、 若 X1~ N(0,1),X2~2且两个随机变量独立,那么Y= 12/服从自由度为 n 的 t
=1
C、 若 X1,…,Xn 相互独立,且都服从正态分布 N(u1,σ12); 若 Y1,…,Ym 相互独
B、 若 X1,…,Xn 相互独立,且都服从正态分布 N(u,σ2);
(− )2
。那么(−1)2
,2= 1−1
=1
=1
,2= 1−1
=1
分布。
立,且都服从正态分布 N(u2,σ12)。即(两类方差相等)。那么
(− )2
=1
(+−2)
+
− 2
=1
~−1。
。那么 ( −)
− − 1−2
− 2
+ =1
~+−2
F 分布:
A、 若 X1~2 ,X2~2且两个随机变量独立,那么Y=1/2/ 服从自由度为(m,n)的 F
分布。
B、 若 X1,…,Xn 相互独立,且都服从正态分布 N(u1,σ12); 若 Y1,…,Ym 相互独
立,且都服从正态分布 N(u2,σ22);得到卡方分布后相除,便会得到相应的 F 分
布。
4、协方差与相关系数
A、随机变量 X 和 Y 的协方差为:Cov(X,Y)= E{(X-E(X))(Y-E(Y))}。
B、协方差的性质
C、Cov(X,Y)= E(XY)- E(X)E(Y)。
D、Cov(aX,bY)= ab Cov(X,Y)。
E、Cov(X1+X2,Y)= Cov(X1,Y)+ Cov(X2,Y)。
F、随机变量 X 和 Y 相互独立X 和 Y 不相关;反之不一定成立。
G、相关系数定义
6、大数定理和中心极限定理
A、大数定理:若 X1,…,Xn 独立同分布的随机变量,记它们的公共均值为 a,方差为
A、c=0 时,称为 X 的 k 阶原点矩。
B、c=E(X)时,称为 X 的 k 阶中心矩。
H、随机变量 X 和 Y 的相关系数为= (,)
() ()。
5、矩:c 为常数,k 为正整数,则E((−))为 X 关于 c 点的 k 阶矩。
C、3判断分布的左偏还是右偏,因为其是三次,所以使用3/23/2做为指标。
D、4判断分布在均值处的陡峭程度,因为其是四次,所以使用422−3 做为指标。
σ2,则对任意给定的ε>0 有:lim→∞(|
−|≥)
=1
=()
≤ ≥
马尔可夫不等式:PY≥ε = ≥
≤ Y−E ≥ε Y−E 2
P|Y−E|≥ε = |Y−E|≥ε
2
=1
−
≤x)=Φ(x)
=()
2
均值为 na,方差为 nσ2。当 n 趋于无穷时,不论 X 原先分布是啥, =1
B、中心极限定理:若 X1,…,Xn 独立同分布的随机变量,记它们的公共均值为 a,方
差为σ2,则对与任意的实数 x 满足:
=1
均可以用正态分布近似。
limn→∞P(
分布
要证明大数定理,需要下面的概率不等式,
切比雪夫不等式:
参数估计
1、 数据
怎么收集数据。
2、 模型(设计统计模型):
概率分布/回归模型。
3、分析与推断(统计分析与推断)。
估计的误差多大?产生指定大小误差的概率?为了使这个概率降低到一定值,需要的数据量
多大?等…
4、假设检验
2、 极大似然估计法:
求解等式便可得到参数的矩估计。
参数估计:假设有从总体分布中抽取的样本集合,要依据这些样本对总体分布中的参数进行
估计,得到未知参数的一个值(点估计)或一个可能的区间(区间估计)。
点估计
1、 矩估计法:
设总体分布f(x;1,2,…,),则它的矩(原点矩、中心矩均可)依赖于参数1,2,…,。
= f(x;1,2,…,)dx
当样本数目 n 足够大时,应该接近于样本的 m 阶矩 。
设总体分布f(x;1,2,…,),X1,…,Xn 为从总体分布中抽取的样本。那么抽取此样本
集的概率为:L=f1;1,2,…,f2;1,2,…,…f(;1,2,…,)
3、 贝叶斯估计法: hθ1,2,…, = ℎ(1,2,…,|)ℎ()
ℎ(1,2,…,|)ℎ()
得到参数的后验概率后,可以使用均值作为参数的点估计(估计参数与真实参数误差平
方和最小)。或者直接后验概率最大,MAP 估计。
把样本集固定,L 看作参数的函数,求取参数的值使得 L 最大即可。
贝叶斯先验的同等无知原则:(1)若样本概率模型为 0-1 分布,则 h(p)=1。(2)若样
本概率模型为正态分布,则 h(u)=1,h(σ)=1/σ。(3)若样本的概率模型为指数分
布,则 h(λ)=1/λ。
其中优的先验概率和不为 1,称为广义先验概率。
点估计的优良性准则:
1、 无偏性:估计量的期望 等于 参数。
A、 误差分为系统误差和随机误差,无偏性说明无系统误差但是又随机误差。
B、 无偏性条件下,可以使用大数定律。
C、 例子:若正态分布均值 a 已知,则方差无偏估计为 =1
方差无偏估计为 =1
D、 例子:均匀分布 R(0,θ)中θ的最大似然估计为 =max(X1,…,Xn)。分析其
(− )2
−1 。
;如果总体均值不知,则
(−)2
是否无偏。
2、 有效性:
量误差大小的衡量。
个下界,那么这个参数估计便是 MVU。
C、 先得到参数的所有无偏估计的方差的一个下界,这样如果某个估计量的方差达到这
首先,计算随机变量 的分布函数,令 Y=max(X1,…,Xn),F(Y)= 0
≤0
1
≥
0<<
然后求导得到概率密度函数,然后求均值 E(Y)= +1。
A、 均方误差:参数θ的估计量为 ,那么 -θ仍未随机变量,因此E{( −θ)2}作为估计
B、 如果估计量 是无偏的,那么均方误差便等价于 最小方差无偏估计(MVU)。
总体的概率密度函数为f(x,θ);记费歇尔信息量为:
((,)
)2
Iθ =
(,)
那么 g(θ)的任一无偏估计量 = (1,2,…,)有:
Var ≥('())2
Iθ
(2) 判断估计量 (1,2,…,)是否无偏,然后计算其方差,看是否达到下界。
用来估计的样本所含的信息越多。N 个样本的总信息量为 N ,那么一个样本刚好占
有 的信息量。
= (,)
=
=,,…,, =
E ,
1, =0
=()
[( ,)]2≤ ()
, ='()
那么TX1,X2,…,Xn 是gθ1,θ2,…,θk 的一个相合估计。
limn→∞P(TX1,X2,…,Xn −gθ1,θ2,…,θk ≥ε)=0
费歇尔信息量越大,那么估计量方差的下界越小,说明估计量估计的越准确,那么说明
(1) 已知要估计量为 g(θ)。然后计算下界。
= (,)
(,)
3、 相合性
4、 渐进正态性
由中心极限定理得:在样本数非常大,其和趋近于正态分布。但是这不是和所独有的。
对于其他的形状很复杂的统计量,当样本数趋于无穷时,其分布也趋于正态分布,称为
统计量的“渐进正态性”。
区间估计
对于参数θ,如果有两个统计量 1= 11,2,…, ≤ 2= 21,2,…, ,满足对给定
的α有:
P 1≤θ≤ 2 =1−α