logo资料库

歌声合成理论基础.pdf

第1页 / 共36页
第2页 / 共36页
第3页 / 共36页
第4页 / 共36页
第5页 / 共36页
第6页 / 共36页
第7页 / 共36页
第8页 / 共36页
资料共36页,剩余部分请下载后查看
songs 理论 歌声合成原理 ⾳乐四要素 语⾳产⽣的机理 歌声合成研究现状 基于波形拼接的⽅法 基于统计模型 汉语歌声合成:歌声转换 基于统计模型的汉语歌声 合成研究 基频模型 HMM 基于HMM的声⾳合成框架 建模尺度 建模结构 特征提取 模型训练阶段 合成阶段 歌声合成的关键 歌声的市场与乐谱的关系 歌声的基频与乐谱的关系 时间模型 基频稀疏问题 实际基频与乐谱差值建模 颤⾳建模 歌声合成的评价⽅式 歌声库的建⽴ 曲⽬选择 乐谱分析 标准的MIDI 示例 MusicXML xml解析 基线系统搭建
歌声信号分析 时域分析 频域分析 语谱分析 提取⼯具world 歌声基频⽣成⽅法 基于乐谱基频引导的基频⽣成⽅法 乐谱基频引导 DF0模型 ⾳节层模型 离散余弦变换⽤于基频参数化 歌声合成的关键 残差特征 颤⾳特征 颤⾳的幅值和速率 具备情感表达能⼒的歌者转换 基于声学参数修改的语⾳转歌声的算法 歌声合成原理 歌唱产⽣的⾳乐成为歌声。歌唱更注意着重于通过横膈膜和腹部甚⾄下腹部肌⾁来调 整呼吸, 从⽽更好地控制⾳⾼、⾳⾊等。 歌唱中的颤⾳是指⾳⾼急剧上下波动的声⾳,是由空⽓有控制地通 过放松的喉部⽽产 ⽣。 ⼀般包括两个过程:乐谱的分析和声⾳的产⽣。 乐谱分析:调、节奏、旋律和语义 ⾳乐四要素 ⾳的⾼低:⾳⾼ (最重要):发声体的振动频率决定,是周期的倒数
⼈堆频率的感知是⾮线性的,例如100Hz与它的2倍频200Hz之间的距离和 200Hz 与它的2倍频400Hz间的距离对⼈⽿来说是⼀致的。 频率⼤则⾳⾼,频率⼩则⾳低。 ⾳乐上倍频称为⼀个⼋度,⻄⽅的⼗⼆平均律把⼀个⼋度分为⼗⼆个半⾳。 标准⾳⾼A5((5表示该⾳符在第5个⼋度⾳程),):中央c上的A⾳符发⾳频率为 440HZ,表示成A=440HZ,A440,国际通⽤标准⾳ 节拍 是⾳乐中规律地强拍和弱拍的反复,如果我们跟随⾳乐的进 ⾏⽤脚⼀下⼀下地点 地,每⼀下就是⼀拍,打击乐器在⾳乐中就是配合节拍演奏的。 在乐谱中表示节拍⽤⼩节,每⼀个乐谱前⾯都有拍号,中间改变节奏会改变拍号。 分⼦代表每⼀⼩节有多少拍⼦,分⺟代表⽤什么⾳符代表⼀拍。 如2/4代表⽤四分⾳ 符代表⼀拍,每-d,节有两拍。 速度tempo决定了⼀段⾳的快慢,是⾳乐的重要元素,影响⾳乐的情感和演奏难度。 速度⼀般以⽂字或数字标记的于乐谱的开端,习惯于每分钟多少拍,(beats per minute,BPM)作为度量单位。 BPM的数值越⼤代表越快的速度。 ⾳的⻓短:(最重要):⾳符的⻓短,由发声体震动的振幅决定的。
⾳的强弱:表征⾳乐的⼒度(强度),⼒度的变化是⾳乐作品中表达情感的常⽤⽅式之 ⼀ ⾳⾊ 连⾳符:是⼀个⾳节包含⼀个或多个⾳符的情况 ⾳程:两个⾳之间的距离,⾳程的单位是分⻉(Cent) 语⾳产⽣的机理 语⾳产⽣的过程包括三部分 > 声⻔下部分,声⻔部分。声⻔上部分 >声⻔下部分由⽓管,⽀⽓管,肺等呼吸⽓管组成,它提供发声的动⼒。 >声⻔在发声时作有节奏的开闭动作,把从肺呼出的⽓流调节成脉冲状声⻔ 波。 这种携带了能量的声⻔波成为说话和歌唱时的基本声源。 >声⻔上部分是整个共鸣腔,包含⼝腔,⿐腔和咽腔。声⻔波经过共鸣腔的 调节 以及辐射效应,产⽣出不同的⾳素,并发出声⾳。 歌声合成⼤致分为两类 基于⼈⽿感知机制的频率参数模型和基于声⾳产⽣原理的物理模型。 歌声合成研究现状 基于波形拼接的⽅法 处理过程 ⾳符标注、分割
缺点:过程复杂、需要⼈⼯介⼊,需要建⽴⼤量的规则 基于统计模型 实例:基于隐⻢尔科夫链的系统 基于源⼀滤波器模型对歌声进⾏信号分解,得到基频和频谱 参数,然后利⽤隐⻢ 尔科夫模型对这些参数进⾏建 优点: 通过⼀定数量的歌声可以达到⼀个不错的⾳质 对歌声进⾏参数分解,需要存储的的参数需要空间⼩ 参数的改变和转换⾮常的便捷,因此改变歌声的⾳质,⾳⾼,时⻓等特征⽅ ⾯⾮常灵活 缺点 真实感差 汉语歌声合成:歌声转换 基于统计模型的汉语歌声 合成 研究 基频模型 针对歌声基频存在的数据稀疏问题,提出了参考乐谱的基频引导⽅ 法。该⽅法将乐谱 中包含的基频信息引⼊到歌声基频的⽣成算法中, 避免了因数据稀疏⽽造成的合成⾳ ⾼在时间和频谱结构上出现偏差的 问题,可以合成出与乐谱相⼀致的具有精准⾳⾼的 基频。
对真实基频和乐谱基频之间可能存在差异的问题进⾏了研究,提出了 在训练中也考虑 乐谱基频因素从⽽准确得到两者之间的差值的⽅法。 利⽤该⽅法可以得到相⽐乐谱基 频引导⽅法更加准确和真实的基频估 计。上述⽅法也可⽤于连⾳符的合成。 HMM
HMM三个基本问题 1.给定⼀个输出序列O和模型⼊,求模型输出此序列的概率。这个问题可通 过前向后向算法求解。 2.给定⼀个输出序列和模型,求最可能输出此序列的状态序列。这个问题可 通过Viterbi算法求解。 3.给定⼀个输出序列和模型结构,求模型参数使得概率最⼤。这是模型的训 练问题,Baum.Welch算法可以⽤来求解。 基于HMM的声⾳合成框架
建模尺度 - 声韵⺟作为建模单元 建模结构 特征提取 从波形中提取基频和频谱特征。 频谱特征采⽤mel-cepstrum特征
分享到:
收藏