0.0.1. 更多关注公众号 豆豆的笔记本
1. 绪论
贝叶斯学派的最基本的观点是:任一个未知量 都可看作一个随机变量,应该用一个概率分布去描述
对 的未知状况。这个概率分布是在抽样前就有的关于 的先验信息的概率称述。
似然函数属于联合密度函数,综合了总体信息和样本信息
贝叶斯公式的密度函数形式与离散形式,其中 的条件分布称为 的后验分布,集中了总体、样本
和先验等三种信息中有关 的一切信息,排除了与之无关的信息。一般先验分布
反映人们抽样
前的认识,通过抽样信息(总体信息和样本信息)对先验进行调整形成后验分布。
贝叶斯假设,对无信息时,可认为 在区间(0,1)的均匀分布
其 他 场 合
重要分布
二项分布B(n, p): 重复n次独立的伯努利试验,每次试验的成功概率为p,当试验次数为1
时,二项分布服从0-1分布,其分布为:
具有相互对立的一种结果的猜测活动。
指数分布: 描述泊松过程中的事件之间的时间的概率分布 ,即事件以恒定平均速率连续且独
立地发生的过程, 具有无记忆的关键性质。常用于描述对发生的缺陷数或系统故障数的测量
结果,但不能作为机械零件功能参数的分布规律。密度函数为:
泊松分布
: 适合于描述单位时间内随机事件发生的次数。 概率函数为:
, 常用于观察单位只能
;k=0,1.... 当二项分布的n很大而p很小时,泊松分布可作为二项分布的近
似,其中λ为 。
贝塔分布,也称B分布,定义在(0,1) 区间的连续概率分布,其概率密度函数为:
,其中贝塔函数
,Γ为伽马函数
,贝塔分布的核为
(注意区分二项分布的核
中x为变量,贝塔分布中 是变量)
伽马分布
,其中 >0为形状参数,
为尺度参数,其密度函数为
,通过此可以得到
的密度函数:
,称为倒伽马分布记为
正态分布
:其概率函数为
指数分布簇
形如
包含如正态分布、多项式分布、泊松分布、伽马分布、指数分布、贝塔分布和
布等
1.1. 共轭先验
分
有相同的函数形式,则称
设 是总体分布中的参数(或参数向量),
是 的先验密度函数,假如由抽样信息算得的后验密度函
是 的(自然)共轭先验分布。通过这种方式计算得到的后验分
数与
布的一些参数可以很好解释。共轭先验分布的选区是由似然函数所含的 因式所决定,即选与似然
函数( 的函数)具有相同核的分布作为先验分布。
正态均值(方差已知)的共轭先验分布是正态分布。可以理解为:后验均值是在先验均值与样本
均值间采取折衷方案,在处理正态分布时,方差的倒数发挥着重要作用,并称其为精度,则
,增加样本量n或减少先验分布方差都
有利于提高后验分布的精度。
先 验 知 识
总 体 分 布
样 本
后 验 知 识
二项分布的成功概率 的共轭先验分布是贝塔分布
先 验
后 验
总 体
常用共轭先验分布
在单参数指数族场合,使用共轭先验分布得后验均值一定值于先验均值与样本均值(或样本方差
等)之间。
后验分布的计算:由于
不依赖于 ,在计算时仅起到正则化因子的作用,
,其中各因子提取出仅与 有关的称为核。计算时可以略去与 无关的因子。
先验分布的选取,应以合理性作为首要原则
后
验
分
布
的
精
度
是
样
本
均
值
分
布
的
精
度
与
先
验
分
布
精
度
之
和
1.2. 确定先验信息
超参数:先验分布中所含的未知参数称为超参数。无信息先验分布一般不含超参数。
确定超参数的估计值
利用先验矩(根据历史若干个估计值,进行加工整理,得到相关值,估计值来源一般为专家
经验)
利用先验分位数(确定两个分位数,得到方程式,解得相关值)
利用先验矩和先验分位数
多参数模型(实际问题中常有多个未知参数,而一般不关注的参数称为讨厌参数)
正态均值与正态方差的(联合)共轭先验分布为正态-逆伽马分布记为
充分统计量
的一个样本,
设x是来自分布函数
条件分布与 无关的话,则称该统计量为 的充分统计量。
设 为密度函数
算得的后验分布与统计量
的一个样本,
为 的充分统计量的充要条件是,用样本分布
是统计量,假如在给定T(x)的条件下,x的
算得的后验分布是相同的。如二维统计量
恰好是量
的充分统计量。
使用充分统计量可以简化数据、降低样本维数,从而简化后验分布的计算。
2. 贝叶斯估计
条件方法
后验分布是在样本x给定下θ的条件分布,基于后验分布的统计推断就意味着只考虑已出现的数据(样
本观察值),而认为未出现的数据与推断无关,这一重要的观点被称为“条件观点“,基于这种观点提出
的统计推断方法被称为条件方法。
2.1. 贝叶斯估计
称为最大后验估计;后验
从后验分布中选用某个特征量作为θ的估计。使后验密度达到最大的值
分布的中位数 称为 的后验中位数估计;后验分布的期望值 称为θ的后验期望估计,这三个估计
也都称为θ的贝叶斯估计,记为 ,在不引起混乱时也记为 。实际中,一般采用后验期望估计作为
贝叶斯估计。
估计的误差。取后验均值可使后验均方差达到最小。
柯西分布 期望不存在
2.2. 区间估计
对于区间估计问题,贝叶斯方法具有处理方便和含义清晰的优点,而经典方法寻求的置信区间常受到
批评。
可信区间:
设参数 的后验分布为
,给定样本x和概率α (0<α<1),若存在这样两个统计量 ,使得
,则称区间[
的贝叶斯可信区间,即参
]为 的可信水平为
,
数 的
限。
的可信区间。仿照经典方法,可以得到
的单侧可信下限和
的单侧可信上
贝叶斯方法可信区间的寻求,较经典统计方法更简单。
经典统计求得的是置信区间,而贝叶斯得到的是可信区间,可信区间更符合理解和解释。
最大后验密度(HPD)可信区间
区间长度最短,并把具有最大后验密度的点都包含在区间内,而区间外的点上的后验密度函
数值不超过区间内的后验密度函数值
若后验密度函数是单峰对称的,则
计算机器辅助计算;多峰则可能出现可信区间不连续的情况。
PS: 当后验密度函数出现多峰时,常常是由于先验信息与抽样信息不一致引起的,而共轭先
验分布大多是单峰的,这必导致后验分布也是单峰的,它可能会掩盖这种不一致信息,故而
要慎重对待和使用共轭先验分布。
可信空间为等尾可信区间,单峰不对称需要
2.3. 假设检验
获得后验分布后,计算两个假设H0与H1的后验概率,然后比较两者的大小,即观察后验概率比
,从中选择最大概率的一方;但当两者相接近时需要进一步抽样或搜集信息。此种方法可推广到三个及
以上的假设状况。
贝叶斯因子,既依赖于样本数据x,还依赖于先验分布 ,这会减弱先验的影响,突出数据的影
响;贝叶斯因子体现了数据支持某假设的程度。贝叶斯因子对样本信息变化的反应是灵敏的,而对
先验信息变化的反应是迟钝的。
简单对简单(参数假设为特定值)
后 验 机 会 比
先 验 机 会 比
复杂对复杂(参数假设为特定区间,使用g(θ)约束θ的范围表示θ的分布情况,特别的取两个
区间θ的极大似然估计代替g(θ)的加权结果可以得到经典统计的似然比统计量)
简单对复杂(综合前两种情况的思维,将特定值转化为以特定值附近区间)
由于此类情况的贝叶斯因子计算简单,可以使用其计算得到θ的后验分布:
以上的三种可以拓展到多重假设问题,PS: 针对现实问题,需要根据已知的信息和分布特定,设定
总体分布和先验函数。
预测(对随机变量未来观察值做出统计推断,一般先获得变量分布,再取期望、中位数、众数、一
定区间等作为预测值)预测值的方差一般大于实测值的方差。
如果无样本观察数据,则使用先验分布获得随机变量 x 的边缘分布m(x)。
如果有样本观察数据,则使用先验分布求得后验分布,再计算随机变量 x 的后验预测分布
m(x|x)。
如果有样本观察数据,并估计同参数的另一个随机变量,则使用先验分布获得随机变量 z 的
后验预测分布m(z|x)。
似然原理 当x的样本值给出时,似然函数为
数,使似然函数在参数空间取最值的 称为最大似然估计。
这是一个关于θ的函
有了观测值后,似然函数L(θ)包含了所有与试验有关的θ的信息;
如果两个似然函数成比例,比例函数与θ无关,则两者包含θ的信息相同
3. 先验分布的确定
主观概率(人们根据经验对一个事件发生可能性的个人信念,对取值范围是离散时更有效)
对立事件比较
专家意见(询问专家时需要设计好问题,并对专家有一定的了解便于修正形成自己的主观概
率,或者向多个专家咨询综合修正)
历史资料
利用先验信息(参数空间连续)
等分区间统计各区间的频率,绘制直方图
选定先验密度后再估计超参数
定分度与变分度
利用边缘分布m(x)
边缘分布可以看作是混合分布(多个总体加权平均)的推广,如果p(x|θ)已知,则m(x)可以
反映先验函数的合理性;
把 作为先验函数 的似然函数,通过极大似然法选取 ,这种方法称为二型极大似然先
验。如果先验密度函数形式已知,则求解先验函数中的超参数即可。
矩方法(先验函数形式已知时,利用先验矩和边缘分布矩的关系建立方程寻求超参数的估计值)
无信息先验与广义先验分布
4. 贝叶斯决策
决策三要素:状态集合、行动集、收益函数Q
行动的容许性:行动集中只存在容许的行动(有选择地可能,有存在地必要)
决策准则:悲观准则(max min)、乐观准则(max max)、折中准则(乐观系数)
损失函数L = max(Q) - Q "该赚却没赚到的钱"。损失函数包含了较多的信息,使用其做决策将更为
合理
先验期望准则:以收益函数在先验信息下得到的先验期望收益,取最大处为最优行动(与收益函数
的原点和单位无关);或以损失函数在先验信息下得到的先验损失,取最大处为最优行动。两种方
式只用到了先验信息,故只能使用正常的先验分布,而不能使用广义先验分布。
把损失函数引入贝叶斯统计推断,就构成了贝叶斯决策问题。
后验风险准则:损失函数对后验分布的期望称为后验风险R,以后验风险最小处为最优行动(和样
本有关,故是一个决策函数),此时的决策函数为贝叶斯解。
决策函数(从样本到决策的映射)与决策函数类
5. 贝叶斯小结
认识到贝叶斯学派的最基本的观点是:任一个未知量 都可看作一个随机变量,应该用一个概率分布
去描述对 的未知状况。
牢记贝叶斯原理的公式,分清离散与连续的区别和使用情景。
针对现实问题,需要根据已知的信息和分布特征,把握总体分布和先验函数形式。
牢记各种分布的函数的分布函数,核的形式,共轭先验分布,期望与方差,掌握利用似然原理计算
后验的超参数,了解区间(0,1)上的均匀分布
个顺序量
中样本的第k
;
是贝塔分布
,从
常见分
布
均匀分
布
二项分
布
泊松分
布
指数分
布
正态分
布
贝塔分
布
伽马分
布
逆伽马
分布
卡方分
布
概率密度或概率函数
数学期望
方差
,
,即
即
,n为自由度
共轭先
验分布
a=0
时,b
—
pareto
分布
p—贝
塔分布
—伽
马分布
—伽
马分
布,
—
逆伽马
分布
—正
态分
布;
—逆伽
马分布
正态分布作正态分布均值的共轭先验的性质(方差的倒数——精度可以看作是先验与样本精度的
和)
先 验
总 体 分 布
样 本
后 验
贝塔分布作二项分布成功概率的共轭先验的性质(
累积)
分别可以看作实验成功次数与不成功次数的
先 验
后 验
总 体
样 本
伽马分布对泊松分布强度的共轭先验的性质(
可以看作泊松分布样本信息和与样本量的累计)
先 验 :
总 体 :
样 本 :
后 验 :
伽马分布对指数分布的共轭先验的性质(
可以看作泊松分布样本信息和与样本量的累计)
先 验 :
总 体 :
样 本 :
后 验 :
认识到后验函数是样本信息与先验信息的综合,在后验的期望和方差中可以体现为加权或整合的形
式,理解方差倒数作为精度的思维。
掌握常用的先验函数中超参数的求法:ML二型先验法和矩方法(利用边缘函数m(x)极值或矩关
系);
掌握常用的贝叶斯估计:后验期望估计(后验函数的期望)和最大后验估计(得到后验函数,求导
取极值点)的求法。
区分样本均值的方差和样本的方差的不同,区贝叶斯估计中后验均方差与后验方差、后验标准误与
后验标准差的不同。
理解假设检验中贝叶斯因子可以体现样本数据对原假设的支持程度
和损失函数
对后验分布
的计算方式,区分 先验期望损失 与后验风险
理解利用贝叶斯决策的方法来实现假设检验时,引入了贴合实际情况和目标的损失函数,从而提供
了一个显著性水平的合理选取方法。
掌握收益函数
(损失函数
区分估计中的贝叶斯估计和决策中的贝叶斯估计的异同,在贝叶斯推断中定义了贝叶斯估计的概
念,并没有结合实际的场景提出选取的方法而一般选取后验期望估计,决策中引入决策函数结合了
具体的场景,并在行动集空间与参数空间同为某个实数集时,提出选取估计的依据为后验风险准
则。
掌握计算贝叶斯决策中常用损失函数下的贝叶斯估计的方法:平方损失下的(均值或其变形)、绝
对值损失下的(分位点)。
的期望)与完全信息期望EVPI(理想)
参考书籍:《贝叶斯统计》