logo资料库

中科院自动化所考博--概率与统计笔记.docx

第1页 / 共16页
第2页 / 共16页
第3页 / 共16页
第4页 / 共16页
第5页 / 共16页
第6页 / 共16页
第7页 / 共16页
第8页 / 共16页
资料共16页,剩余部分请下载后查看
随机事件及其概率
随机变量及其分布
随机变量的数字特征
参数估计
假设检验
随机事件及其概率 。 古典概型公式:PA =包含样本点数 Ω所含样本点数 对任意的两个事件 A 和 B:PA∪B =PA +PB −P(AB)。 条件概率公式:PAB =() () 。 全概率公式:PB = =1 (|) 逆概率公式:| =() = =1 (|) 事件 A 和 B 相互独立 =()。 事件 A 和 B 互斥+ = +()。相加互斥,相乘独立。 事件对 A 和 B、和 B、A 和、和,如果其中有一对相互独立,其余三对也独立。 。 。 随机变量及其分布 随机变量:设 E 为一随机事件,S 为 E 的样本空间,那么 X=X(w),w∈S 为单值实函数, 则称 X 为随机变量。 分布函数:设 X 为随机变量,x 为实数,则称函数 F(x)=P(X≤x)为 X 的分布函数。 分布函数的性质: 1、 F(-∞)=0。 2、 F(∞)=1。 3、 F(x)是自变量 x 的非降函数。 4、 F(x)对自变量 x 右连续,即对任意实数 x,F(x+0)=F(x)。 系列等式为随机变量 X 的分布律。 1、0-1 分布 设离散型变量 X 的可能取值为1,2,…,∞,且 X 取这些值的概率为:P =。则称上述一 如果 X 只有{0,1}两个取值,且P=1 =p;PX=0 =1−p。 X~B(n,p);P= =(1−)−。 X~P(λ);P= =−! 。 (1)、把时间段[0,1]分为等长的 n 段。则在任意一段恰发生一个事故的概率正比与该段 2、二项分布 3、泊松分布 时间长度λ/n。
4、超几何分布 (2)、又因为 n 非常大时,每个时间段时间很短,所以发生两次或更多次事故的概率为 0,因此该段时间不发生事故的概率为 1-λ/n。 (3)、所有的 n 个时间段,是否发生事故独立。因此在[0,1]时间段发生的事故数 X,为 随机变量 X 表示,从 N 个样本中(有 M 个次品)随机抽取 n 个样品,这 n 个样品中的次品 当 n 趋于无穷时,得到泊松分布。 n 个时间段内发生事故的段数,所以概率为PX=i =()(1−)−。 个数。PX=m =−− 。 那么PX=i =+− − (1−)。 当 N 趋于无穷时,等价于二项分布。 负指数二项展开式(可用来计算均值): 次品率为 p,那么当有放回抽取时,当抽到第 r 个次品时,以 X 记为已检测处的正品, 5、 负二项分布 (1−)−= =0∞ +− − 注意 r=1 的特殊情况。 6、 几何分布 当负二项分布中的 r=1 时,分布称为几何分布。 Fx = −∞ 概率密度: 随机变量 X 的分布函数 F(X),如果存在一个非负可积函数 f(x),使得对于任意的 x 满足: =Φ0.25 −Φ(−1.25)。 则称 X 为连续型随机变量,f(x)为 X 的概率密度。若 f(x)在 x 点处连续, 那么 F’(x)=f(x) 1、 均匀分布 2、 正态分布 元器件在时刻 x 正常工作的条件下,其失效率总保持为某个常数λ(与 x 无关)。即 3、 指数分布 若 X~N(1.5,4),那么P−1≤X≤2 =P −1−1.52 ≤−1.52 ≤2−1.52 limℎ→0(≤≤+ℎ|>) = 1−()=。 通过贝叶斯公式 ()' 然后求得指数分布fx = −0 。 元器件在时刻 x 正常工作的条件下,其失效率总保持为某个常数λ(与 x 有关)。 4、 威布尔分布 ℎ ()' 1−()=
求得fx = (+1)−+1 0 。 所以 随机变量函数的概率密度(和、差、乘、除、min、max) 离散情况比较简单(略)。 连续型分布: 在(Y1,Y2)上的 A 区域经过变换得到(X1,X2)的 B 区域,因此有: 随机多维变量,以二维为例:设(X1,X2)的密度函数为 f(x1,x2),变量 Y1,Y2 都是(X1, =≤ = ≤ =≤∗ =(∗) 随机单变量 X,具有概率密度();如果 Y=g(x),那么求随机变量 Y 的概率密度: X2)的函数1=11,2,2=2(1,2)。我们假设(X1,X2)到(Y1,Y2)是一一对应 的,因而有逆变换1=ℎ11,2,2=ℎ2(1,2),雅可比矩阵为 , = / / / / P Y1,Y2 ∈A =P(X1,X2 ∈B) 1,2 1,2 =ℎ11,2,ℎ21,2 , ∈ = ,,, , 实验 E 的所有事件群为 A1,A2,…,An(掷色子有 6 个事件)。那么在 N 次试验后,表示 事件出现的次数,因此 X=(1,2,…,)为多维随机变量,且1+2+…+=N。 多维随机变量: 1、 多项分布(与二项分布对应) P1=1,2=2,…,= = ! 1!2!…!1122… 2、 多维正太分布 3、 多维均匀分布 多维随机变量的分布函数性质(用二维举例): 1、0<=F(x,y)<=1。 2、F(x,y)是变量 x 和 y 的不减函数。 3、对于任意固定的 y,lim→−∞(,)=0。对于任意固定的 x,lim→−∞(,)=0。并且 →−∞,→−∞ =0;→∞,→∞ =1。 −∞ (,) 4、, =≤,≤ = −∞ =1。如果(,)连续,那么, =2(,) 其中, ≥0;−∞∞ −∞∞(,) 。 。 边缘分布: 设 f(x,y)是(X,Y)的联合概率密度,那么边缘概率密度为:
条件概率分布:(使用条件概率和边缘分布进行求解) ∞, ; = −∞ ∞, = −∞ 离散:PX=xY=y =(=,=) (=) (a≤Y≤b) = −∞ 连续:≤≤≤ =(X≤x,a≤Y≤b) 1,212 −∞∞ 1,212 两边对 x 求导得到=≤≤ = 1,22 / −∞∞1,212 当 a=b 时,fX=xY=a =,/−∞∞1,1 fX,Y =fXfYX =fXf(Y);PX,Y =PXP(Y);FX,Y =FXF(Y)。 如果,,…, =…();那么的边缘概率密度与gixi 只差一个常 随机变量独立性: 如果 f(X|Y)不依赖于 Y,只是 X 的函数,这时称 X 和 Y 两个随机变量概率意义上独立。 数因子。 ; 。 。 随机变量的数字特征 1、 数学期望 A、 若 c 是常数,那么 E(c)=c。 B、 设 X 为随机变量,c 为常数,则有 E(cX)=cE(X)。 C、 设 X,Y 为随机变量,则有 E(X+Y)=E(X)+E(Y)。 D、 设 X,Y 为相互独立的随机变量,则有 E(XY)=E(X)E(Y)。 2、中位数 3、方差 A、E{(X-E(X))2}。 B、E(X2)-[E(X)]2。 C、设 c 为常数,那么 D(cX)=c2D(X)。 D、设 X,Y 为相互独立的随机变量,则有 D(aX+bY)=a2D(X)+ b2D(Y)。 E、设 X,Y 为任意的随机变量,则有 D(X+Y)= D(X)+D(Y)+ 2Cov(X,Y)。 名称 期望 方差 参数 概率分布/密度 P=1 =p (1−)− +−1 −1 (1−) X~N(u,σ2) 0-1 分布 二项分布 负二项分布 正态分布 p np r(1-p)/p u p(1-p) np(1-p) r(1-p)/p2 σ2
−! fx = −0 fx = 1− 自由度为 n 自由度为 n 1/ (a+b)/2 n 0 1/ (b-a)2/12 2n n/(n-2) 自由度为(m,n) n/(n-2) 2n2(m+n-2)/[m(n-2)2(n-4)] 泊松分布 指数分布 均匀分布 卡方分布 t 分布 F 分布 卡方分布: t 分布: 服从自由 服 从自由度为 2n 的卡方分布。 D、 若 X1,…,Xn 相互独立,且都服从正态分布 N(u,σ2); A、 若 X1,…,Xn 相互独立,且都服从正态分布 N(0,1),那么Y= =1 2 度为 n 的卡方分布2。 B、 若 X1 与 X2 相互独立,且 X1~2,X2~2 ,那么 X1+X2~+2 。 C、 若 X1,…,Xn 相互独立,且都服从指数分布fx = −0 ,那么Y=2 =1 =1 2 ~−12 。 A、 若 X1~ N(0,1),X2~2且两个随机变量独立,那么Y= 12/服从自由度为 n 的 t =1 C、 若 X1,…,Xn 相互独立,且都服从正态分布 N(u1,σ12); 若 Y1,…,Ym 相互独 B、 若 X1,…,Xn 相互独立,且都服从正态分布 N(u,σ2); (−)2 。那么(−1)2 ,2= 1−1 =1 =1 ,2= 1−1 =1 分布。 立,且都服从正态分布 N(u2,σ12)。即(两类方差相等)。那么 (−)2 =1 (+−2) + − 2 =1 ~−1。 。那么 (−) − − 1−2 − 2 + =1 ~+−2 F 分布: A、 若 X1~2 ,X2~2且两个随机变量独立,那么Y=1/2/ 服从自由度为(m,n)的 F 分布。 B、 若 X1,…,Xn 相互独立,且都服从正态分布 N(u1,σ12); 若 Y1,…,Ym 相互独 立,且都服从正态分布 N(u2,σ22);得到卡方分布后相除,便会得到相应的 F 分 布。
4、协方差与相关系数 A、随机变量 X 和 Y 的协方差为:Cov(X,Y)= E{(X-E(X))(Y-E(Y))}。 B、协方差的性质 C、Cov(X,Y)= E(XY)- E(X)E(Y)。 D、Cov(aX,bY)= ab Cov(X,Y)。 E、Cov(X1+X2,Y)= Cov(X1,Y)+ Cov(X2,Y)。 F、随机变量 X 和 Y 相互独立X 和 Y 不相关;反之不一定成立。 G、相关系数定义 6、大数定理和中心极限定理 A、大数定理:若 X1,…,Xn 独立同分布的随机变量,记它们的公共均值为 a,方差为 A、c=0 时,称为 X 的 k 阶原点矩。 B、c=E(X)时,称为 X 的 k 阶中心矩。 H、随机变量 X 和 Y 的相关系数为= (,) () ()。 5、矩:c 为常数,k 为正整数,则E((−))为 X 关于 c 点的 k 阶矩。 C、3判断分布的左偏还是右偏,因为其是三次,所以使用3/23/2做为指标。 D、4判断分布在均值处的陡峭程度,因为其是四次,所以使用422−3 做为指标。 σ2,则对任意给定的ε>0 有:lim→∞(| −|≥) =1 =() ≤ ≥ 马尔可夫不等式:PY≥ε = ≥ ≤ Y−E ≥ε Y−E 2 P|Y−E|≥ε = |Y−E|≥ε 2 =1 − ≤x)=Φ(x) =() 2 均值为 na,方差为 nσ2。当 n 趋于无穷时,不论 X 原先分布是啥, =1 B、中心极限定理:若 X1,…,Xn 独立同分布的随机变量,记它们的公共均值为 a,方 差为σ2,则对与任意的实数 x 满足: =1 均可以用正态分布近似。 limn→∞P( 分布 要证明大数定理,需要下面的概率不等式, 切比雪夫不等式: 参数估计 1、 数据 怎么收集数据。 2、 模型(设计统计模型):
概率分布/回归模型。 3、分析与推断(统计分析与推断)。 估计的误差多大?产生指定大小误差的概率?为了使这个概率降低到一定值,需要的数据量 多大?等… 4、假设检验 2、 极大似然估计法: 求解等式便可得到参数的矩估计。 参数估计:假设有从总体分布中抽取的样本集合,要依据这些样本对总体分布中的参数进行 估计,得到未知参数的一个值(点估计)或一个可能的区间(区间估计)。 点估计 1、 矩估计法: 设总体分布f(x;1,2,…,),则它的矩(原点矩、中心矩均可)依赖于参数1,2,…,。 = f(x;1,2,…,)dx 当样本数目 n 足够大时,应该接近于样本的 m 阶矩。 设总体分布f(x;1,2,…,),X1,…,Xn 为从总体分布中抽取的样本。那么抽取此样本 集的概率为:L=f1;1,2,…,f2;1,2,…,…f(;1,2,…,) 3、 贝叶斯估计法: hθ1,2,…, = ℎ(1,2,…,|)ℎ() ℎ(1,2,…,|)ℎ() 得到参数的后验概率后,可以使用均值作为参数的点估计(估计参数与真实参数误差平 方和最小)。或者直接后验概率最大,MAP 估计。 把样本集固定,L 看作参数的函数,求取参数的值使得 L 最大即可。 贝叶斯先验的同等无知原则:(1)若样本概率模型为 0-1 分布,则 h(p)=1。(2)若样 本概率模型为正态分布,则 h(u)=1,h(σ)=1/σ。(3)若样本的概率模型为指数分 布,则 h(λ)=1/λ。 其中优的先验概率和不为 1,称为广义先验概率。 点估计的优良性准则: 1、 无偏性:估计量的期望 等于 参数。 A、 误差分为系统误差和随机误差,无偏性说明无系统误差但是又随机误差。 B、 无偏性条件下,可以使用大数定律。 C、 例子:若正态分布均值 a 已知,则方差无偏估计为 =1 方差无偏估计为 =1 D、 例子:均匀分布 R(0,θ)中θ的最大似然估计为=max(X1,…,Xn)。分析其 (−)2 −1 。 ;如果总体均值不知,则 (−)2 是否无偏。
2、 有效性: 量误差大小的衡量。 个下界,那么这个参数估计便是 MVU。 C、 先得到参数的所有无偏估计的方差的一个下界,这样如果某个估计量的方差达到这 首先,计算随机变量的分布函数,令 Y=max(X1,…,Xn),F(Y)= 0 ≤0 1 ≥ 0<< 然后求导得到概率密度函数,然后求均值 E(Y)= +1。 A、 均方误差:参数θ的估计量为,那么-θ仍未随机变量,因此E{(−θ)2}作为估计 B、 如果估计量是无偏的,那么均方误差便等价于 最小方差无偏估计(MVU)。 总体的概率密度函数为f(x,θ);记费歇尔信息量为: ((,) )2 Iθ = (,) 那么 g(θ)的任一无偏估计量 =(1,2,…,)有: Var ≥('())2 Iθ (2) 判断估计量(1,2,…,)是否无偏,然后计算其方差,看是否达到下界。 用来估计的样本所含的信息越多。N 个样本的总信息量为 N ,那么一个样本刚好占 有 的信息量。 = (,) = =,,…,, = E , 1, =0 =() [(,)]2≤() , ='() 那么TX1,X2,…,Xn 是gθ1,θ2,…,θk 的一个相合估计。 limn→∞P(TX1,X2,…,Xn −gθ1,θ2,…,θk ≥ε)=0 费歇尔信息量越大,那么估计量方差的下界越小,说明估计量估计的越准确,那么说明 (1) 已知要估计量为 g(θ)。然后计算下界。 = (,) (,) 3、 相合性 4、 渐进正态性 由中心极限定理得:在样本数非常大,其和趋近于正态分布。但是这不是和所独有的。 对于其他的形状很复杂的统计量,当样本数趋于无穷时,其分布也趋于正态分布,称为 统计量的“渐进正态性”。 区间估计 对于参数θ,如果有两个统计量1=11,2,…, ≤2=21,2,…, ,满足对给定 的α有: P1≤θ≤2 =1−α
分享到:
收藏