logo资料库

贝叶斯分析笔记.pdf

第1页 / 共9页
第2页 / 共9页
第3页 / 共9页
第4页 / 共9页
第5页 / 共9页
第6页 / 共9页
第7页 / 共9页
第8页 / 共9页
资料共9页,剩余部分请下载后查看
更多关注公众号 豆豆的笔记本
绪论
共轭先验
确定先验信息
贝叶斯估计
贝叶斯估计
区间估计
假设检验
先验分布的确定
贝叶斯决策
贝叶斯小结
贝叶斯网络
利用贝叶斯方法学习权重
贝叶斯的简单运用
0.0.1. 更多关注公众号 豆豆的笔记本   1. 绪论 贝叶斯学派的最基本的观点是:任一个未知量 都可看作一个随机变量,应该用一个概率分布去描述 对 的未知状况。这个概率分布是在抽样前就有的关于 的先验信息的概率称述。 似然函数属于联合密度函数,综合了总体信息和样本信息     贝叶斯公式的密度函数形式与离散形式,其中 的条件分布称为 的后验分布,集中了总体、样本 和先验等三种信息中有关 的一切信息,排除了与之无关的信息。一般先验分布 反映人们抽样 前的认识,通过抽样信息(总体信息和样本信息)对先验进行调整形成后验分布。 贝叶斯假设,对无信息时,可认为 在区间(0,1)的均匀分布 其 他 场 合 重要分布 二项分布B(n, p): 重复n次独立的伯努利试验,每次试验的成功概率为p,当试验次数为1 时,二项分布服从0-1分布,其分布为: 具有相互对立的一种结果的猜测活动。 指数分布: 描述泊松过程中的事件之间的时间的概率分布 ,即事件以恒定平均速率连续且独 立地发生的过程, 具有无记忆的关键性质。常用于描述对发生的缺陷数或系统故障数的测量 结果,但不能作为机械零件功能参数的分布规律。密度函数为: 泊松分布 : 适合于描述单位时间内随机事件发生的次数。 概率函数为: , 常用于观察单位只能 ;k=0,1.... 当二项分布的n很大而p很小时,泊松分布可作为二项分布的近 似,其中λ为 。 贝塔分布,也称B分布,定义在(0,1) 区间的连续概率分布,其概率密度函数为: ,其中贝塔函数 ,Γ为伽马函数 ,贝塔分布的核为 (注意区分二项分布的核 中x为变量,贝塔分布中 是变量) 伽马分布 ,其中 >0为形状参数, 为尺度参数,其密度函数为 ,通过此可以得到 的密度函数: ,称为倒伽马分布记为
正态分布 :其概率函数为 指数分布簇 形如 包含如正态分布、多项式分布、泊松分布、伽马分布、指数分布、贝塔分布和 布等 1.1. 共轭先验 分 有相同的函数形式,则称 设 是总体分布中的参数(或参数向量), 是 的先验密度函数,假如由抽样信息算得的后验密度函 是 的(自然)共轭先验分布。通过这种方式计算得到的后验分 数与 布的一些参数可以很好解释。共轭先验分布的选区是由似然函数所含的 因式所决定,即选与似然 函数( 的函数)具有相同核的分布作为先验分布。 正态均值(方差已知)的共轭先验分布是正态分布。可以理解为:后验均值是在先验均值与样本 均值间采取折衷方案,在处理正态分布时,方差的倒数发挥着重要作用,并称其为精度,则 ,增加样本量n或减少先验分布方差都 有利于提高后验分布的精度。 先 验 知 识 总 体 分 布 样 本 后 验 知 识 二项分布的成功概率 的共轭先验分布是贝塔分布 先 验 后 验 总 体   常用共轭先验分布 在单参数指数族场合,使用共轭先验分布得后验均值一定值于先验均值与样本均值(或样本方差 等)之间。 后验分布的计算:由于 不依赖于 ,在计算时仅起到正则化因子的作用, ,其中各因子提取出仅与 有关的称为核。计算时可以略去与 无关的因子。 先验分布的选取,应以合理性作为首要原则 后 验 分 布 的 精 度 是 样 本 均 值 分 布 的 精 度 与 先 验 分 布 精 度 之 和
1.2. 确定先验信息 超参数:先验分布中所含的未知参数称为超参数。无信息先验分布一般不含超参数。 确定超参数的估计值 利用先验矩(根据历史若干个估计值,进行加工整理,得到相关值,估计值来源一般为专家 经验) 利用先验分位数(确定两个分位数,得到方程式,解得相关值) 利用先验矩和先验分位数 多参数模型(实际问题中常有多个未知参数,而一般不关注的参数称为讨厌参数) 正态均值与正态方差的(联合)共轭先验分布为正态-逆伽马分布记为 充分统计量 的一个样本, 设x是来自分布函数 条件分布与 无关的话,则称该统计量为 的充分统计量。 设 为密度函数 算得的后验分布与统计量 的一个样本, 为 的充分统计量的充要条件是,用样本分布 是统计量,假如在给定T(x)的条件下,x的 算得的后验分布是相同的。如二维统计量 恰好是量 的充分统计量。 使用充分统计量可以简化数据、降低样本维数,从而简化后验分布的计算。 2. 贝叶斯估计 条件方法 后验分布是在样本x给定下θ的条件分布,基于后验分布的统计推断就意味着只考虑已出现的数据(样 本观察值),而认为未出现的数据与推断无关,这一重要的观点被称为“条件观点“,基于这种观点提出 的统计推断方法被称为条件方法。 2.1. 贝叶斯估计 称为最大后验估计;后验 从后验分布中选用某个特征量作为θ的估计。使后验密度达到最大的值 分布的中位数 称为 的后验中位数估计;后验分布的期望值 称为θ的后验期望估计,这三个估计 也都称为θ的贝叶斯估计,记为 ,在不引起混乱时也记为 。实际中,一般采用后验期望估计作为 贝叶斯估计。 估计的误差。取后验均值可使后验均方差达到最小。 柯西分布 期望不存在 2.2. 区间估计
对于区间估计问题,贝叶斯方法具有处理方便和含义清晰的优点,而经典方法寻求的置信区间常受到 批评。 可信区间: 设参数 的后验分布为 ,给定样本x和概率α (0<α<1),若存在这样两个统计量 ,使得 ,则称区间[ 的贝叶斯可信区间,即参 ]为 的可信水平为 , 数 的 限。 的可信区间。仿照经典方法,可以得到 的单侧可信下限和 的单侧可信上 贝叶斯方法可信区间的寻求,较经典统计方法更简单。 经典统计求得的是置信区间,而贝叶斯得到的是可信区间,可信区间更符合理解和解释。 最大后验密度(HPD)可信区间 区间长度最短,并把具有最大后验密度的点都包含在区间内,而区间外的点上的后验密度函 数值不超过区间内的后验密度函数值 若后验密度函数是单峰对称的,则 计算机器辅助计算;多峰则可能出现可信区间不连续的情况。 PS: 当后验密度函数出现多峰时,常常是由于先验信息与抽样信息不一致引起的,而共轭先 验分布大多是单峰的,这必导致后验分布也是单峰的,它可能会掩盖这种不一致信息,故而 要慎重对待和使用共轭先验分布。 可信空间为等尾可信区间,单峰不对称需要 2.3. 假设检验 获得后验分布后,计算两个假设H0与H1的后验概率,然后比较两者的大小,即观察后验概率比 ,从中选择最大概率的一方;但当两者相接近时需要进一步抽样或搜集信息。此种方法可推广到三个及 以上的假设状况。 贝叶斯因子,既依赖于样本数据x,还依赖于先验分布 ,这会减弱先验的影响,突出数据的影 响;贝叶斯因子体现了数据支持某假设的程度。贝叶斯因子对样本信息变化的反应是灵敏的,而对 先验信息变化的反应是迟钝的。 简单对简单(参数假设为特定值) 后 验 机 会 比 先 验 机 会 比 复杂对复杂(参数假设为特定区间,使用g(θ)约束θ的范围表示θ的分布情况,特别的取两个 区间θ的极大似然估计代替g(θ)的加权结果可以得到经典统计的似然比统计量) 简单对复杂(综合前两种情况的思维,将特定值转化为以特定值附近区间)
由于此类情况的贝叶斯因子计算简单,可以使用其计算得到θ的后验分布: 以上的三种可以拓展到多重假设问题,PS: 针对现实问题,需要根据已知的信息和分布特定,设定 总体分布和先验函数。 预测(对随机变量未来观察值做出统计推断,一般先获得变量分布,再取期望、中位数、众数、一 定区间等作为预测值)预测值的方差一般大于实测值的方差。 如果无样本观察数据,则使用先验分布获得随机变量 x 的边缘分布m(x)。 如果有样本观察数据,则使用先验分布求得后验分布,再计算随机变量 x 的后验预测分布 m(x|x)。 如果有样本观察数据,并估计同参数的另一个随机变量,则使用先验分布获得随机变量 z 的 后验预测分布m(z|x)。 似然原理 当x的样本值给出时,似然函数为 数,使似然函数在参数空间取最值的 称为最大似然估计。 这是一个关于θ的函 有了观测值后,似然函数L(θ)包含了所有与试验有关的θ的信息; 如果两个似然函数成比例,比例函数与θ无关,则两者包含θ的信息相同 3. 先验分布的确定 主观概率(人们根据经验对一个事件发生可能性的个人信念,对取值范围是离散时更有效) 对立事件比较 专家意见(询问专家时需要设计好问题,并对专家有一定的了解便于修正形成自己的主观概 率,或者向多个专家咨询综合修正) 历史资料 利用先验信息(参数空间连续) 等分区间统计各区间的频率,绘制直方图 选定先验密度后再估计超参数 定分度与变分度 利用边缘分布m(x) 边缘分布可以看作是混合分布(多个总体加权平均)的推广,如果p(x|θ)已知,则m(x)可以 反映先验函数的合理性; 把 作为先验函数 的似然函数,通过极大似然法选取 ,这种方法称为二型极大似然先 验。如果先验密度函数形式已知,则求解先验函数中的超参数即可。 矩方法(先验函数形式已知时,利用先验矩和边缘分布矩的关系建立方程寻求超参数的估计值) 无信息先验与广义先验分布  
4. 贝叶斯决策 决策三要素:状态集合、行动集、收益函数Q 行动的容许性:行动集中只存在容许的行动(有选择地可能,有存在地必要) 决策准则:悲观准则(max min)、乐观准则(max max)、折中准则(乐观系数) 损失函数L = max(Q) - Q "该赚却没赚到的钱"。损失函数包含了较多的信息,使用其做决策将更为 合理 先验期望准则:以收益函数在先验信息下得到的先验期望收益,取最大处为最优行动(与收益函数 的原点和单位无关);或以损失函数在先验信息下得到的先验损失,取最大处为最优行动。两种方 式只用到了先验信息,故只能使用正常的先验分布,而不能使用广义先验分布。 把损失函数引入贝叶斯统计推断,就构成了贝叶斯决策问题。 后验风险准则:损失函数对后验分布的期望称为后验风险R,以后验风险最小处为最优行动(和样 本有关,故是一个决策函数),此时的决策函数为贝叶斯解。 决策函数(从样本到决策的映射)与决策函数类   5. 贝叶斯小结 认识到贝叶斯学派的最基本的观点是:任一个未知量 都可看作一个随机变量,应该用一个概率分布 去描述对 的未知状况。 牢记贝叶斯原理的公式,分清离散与连续的区别和使用情景。 针对现实问题,需要根据已知的信息和分布特征,把握总体分布和先验函数形式。 牢记各种分布的函数的分布函数,核的形式,共轭先验分布,期望与方差,掌握利用似然原理计算 后验的超参数,了解区间(0,1)上的均匀分布 个顺序量 中样本的第k ; 是贝塔分布 ,从
常见分 布 均匀分 布 二项分 布 泊松分 布 指数分 布 正态分 布 贝塔分 布 伽马分 布 逆伽马 分布 卡方分 布 概率密度或概率函数 数学期望 方差 , ,即 即 ,n为自由度 共轭先 验分布 a=0 时,b — pareto 分布 p—贝 塔分布 —伽 马分布 —伽 马分 布, — 逆伽马 分布 —正 态分 布; —逆伽 马分布         正态分布作正态分布均值的共轭先验的性质(方差的倒数——精度可以看作是先验与样本精度的 和) 先 验 总 体 分 布 样 本 后 验 贝塔分布作二项分布成功概率的共轭先验的性质( 累积) 分别可以看作实验成功次数与不成功次数的 先 验 后 验 总 体 样 本
伽马分布对泊松分布强度的共轭先验的性质( 可以看作泊松分布样本信息和与样本量的累计) 先 验 : 总 体 : 样 本 : 后 验 : 伽马分布对指数分布的共轭先验的性质( 可以看作泊松分布样本信息和与样本量的累计) 先 验 : 总 体 : 样 本 : 后 验 : 认识到后验函数是样本信息与先验信息的综合,在后验的期望和方差中可以体现为加权或整合的形 式,理解方差倒数作为精度的思维。 掌握常用的先验函数中超参数的求法:ML二型先验法和矩方法(利用边缘函数m(x)极值或矩关 系); 掌握常用的贝叶斯估计:后验期望估计(后验函数的期望)和最大后验估计(得到后验函数,求导 取极值点)的求法。 区分样本均值的方差和样本的方差的不同,区贝叶斯估计中后验均方差与后验方差、后验标准误与 后验标准差的不同。 理解假设检验中贝叶斯因子可以体现样本数据对原假设的支持程度 和损失函数 对后验分布 的计算方式,区分 先验期望损失 与后验风险 理解利用贝叶斯决策的方法来实现假设检验时,引入了贴合实际情况和目标的损失函数,从而提供 了一个显著性水平的合理选取方法。 掌握收益函数 (损失函数 区分估计中的贝叶斯估计和决策中的贝叶斯估计的异同,在贝叶斯推断中定义了贝叶斯估计的概 念,并没有结合实际的场景提出选取的方法而一般选取后验期望估计,决策中引入决策函数结合了 具体的场景,并在行动集空间与参数空间同为某个实数集时,提出选取估计的依据为后验风险准 则。 掌握计算贝叶斯决策中常用损失函数下的贝叶斯估计的方法:平方损失下的(均值或其变形)、绝 对值损失下的(分位点)。 的期望)与完全信息期望EVPI(理想)   参考书籍:《贝叶斯统计》
分享到:
收藏