songs 理论
歌声合成原理
⾳乐四要素
语⾳产⽣的机理
歌声合成研究现状
基于波形拼接的⽅法
基于统计模型
汉语歌声合成:歌声转换
基于统计模型的汉语歌声 合成研究
基频模型
HMM
基于HMM的声⾳合成框架
建模尺度
建模结构
特征提取
模型训练阶段
合成阶段
歌声合成的关键
歌声的市场与乐谱的关系
歌声的基频与乐谱的关系
时间模型
基频稀疏问题
实际基频与乐谱差值建模
颤⾳建模
歌声合成的评价⽅式
歌声库的建⽴
曲⽬选择
乐谱分析
标准的MIDI
示例
MusicXML
xml解析
基线系统搭建
歌声信号分析
时域分析
频域分析
语谱分析
提取⼯具world
歌声基频⽣成⽅法
基于乐谱基频引导的基频⽣成⽅法
乐谱基频引导
DF0模型
⾳节层模型
离散余弦变换⽤于基频参数化
歌声合成的关键
残差特征
颤⾳特征
颤⾳的幅值和速率
具备情感表达能⼒的歌者转换
基于声学参数修改的语⾳转歌声的算法
歌声合成原理
歌唱产⽣的⾳乐成为歌声。歌唱更注意着重于通过横膈膜和腹部甚⾄下腹部肌⾁来调
整呼吸, 从⽽更好地控制⾳⾼、⾳⾊等。
歌唱中的颤⾳是指⾳⾼急剧上下波动的声⾳,是由空⽓有控制地通 过放松的喉部⽽产
⽣。
⼀般包括两个过程:乐谱的分析和声⾳的产⽣。
乐谱分析:调、节奏、旋律和语义
⾳乐四要素
⾳的⾼低:⾳⾼ (最重要):发声体的振动频率决定,是周期的倒数
⼈堆频率的感知是⾮线性的,例如100Hz与它的2倍频200Hz之间的距离和 200Hz
与它的2倍频400Hz间的距离对⼈⽿来说是⼀致的。
频率⼤则⾳⾼,频率⼩则⾳低。
⾳乐上倍频称为⼀个⼋度,⻄⽅的⼗⼆平均律把⼀个⼋度分为⼗⼆个半⾳。
标准⾳⾼A5((5表示该⾳符在第5个⼋度⾳程),):中央c上的A⾳符发⾳频率为
440HZ,表示成A=440HZ,A440,国际通⽤标准⾳
节拍
是⾳乐中规律地强拍和弱拍的反复,如果我们跟随⾳乐的进 ⾏⽤脚⼀下⼀下地点
地,每⼀下就是⼀拍,打击乐器在⾳乐中就是配合节拍演奏的。
在乐谱中表示节拍⽤⼩节,每⼀个乐谱前⾯都有拍号,中间改变节奏会改变拍号。
分⼦代表每⼀⼩节有多少拍⼦,分⺟代表⽤什么⾳符代表⼀拍。
如2/4代表⽤四分⾳ 符代表⼀拍,每-d,节有两拍。
速度tempo决定了⼀段⾳的快慢,是⾳乐的重要元素,影响⾳乐的情感和演奏难度。
速度⼀般以⽂字或数字标记的于乐谱的开端,习惯于每分钟多少拍,(beats per
minute,BPM)作为度量单位。
BPM的数值越⼤代表越快的速度。
⾳的⻓短:(最重要):⾳符的⻓短,由发声体震动的振幅决定的。
⾳的强弱:表征⾳乐的⼒度(强度),⼒度的变化是⾳乐作品中表达情感的常⽤⽅式之
⼀
⾳⾊
连⾳符:是⼀个⾳节包含⼀个或多个⾳符的情况
⾳程:两个⾳之间的距离,⾳程的单位是分⻉(Cent)
语⾳产⽣的机理
语⾳产⽣的过程包括三部分
> 声⻔下部分,声⻔部分。声⻔上部分
>声⻔下部分由⽓管,⽀⽓管,肺等呼吸⽓管组成,它提供发声的动⼒。
>声⻔在发声时作有节奏的开闭动作,把从肺呼出的⽓流调节成脉冲状声⻔ 波。
这种携带了能量的声⻔波成为说话和歌唱时的基本声源。
>声⻔上部分是整个共鸣腔,包含⼝腔,⿐腔和咽腔。声⻔波经过共鸣腔的 调节
以及辐射效应,产⽣出不同的⾳素,并发出声⾳。
歌声合成⼤致分为两类
基于⼈⽿感知机制的频率参数模型和基于声⾳产⽣原理的物理模型。
歌声合成研究现状
基于波形拼接的⽅法
处理过程
⾳符标注、分割
缺点:过程复杂、需要⼈⼯介⼊,需要建⽴⼤量的规则
基于统计模型
实例:基于隐⻢尔科夫链的系统
基于源⼀滤波器模型对歌声进⾏信号分解,得到基频和频谱 参数,然后利⽤隐⻢
尔科夫模型对这些参数进⾏建
优点:
通过⼀定数量的歌声可以达到⼀个不错的⾳质
对歌声进⾏参数分解,需要存储的的参数需要空间⼩
参数的改变和转换⾮常的便捷,因此改变歌声的⾳质,⾳⾼,时⻓等特征⽅
⾯⾮常灵活
缺点
真实感差
汉语歌声合成:歌声转换
基于统计模型的汉语歌声 合成
研究
基频模型
针对歌声基频存在的数据稀疏问题,提出了参考乐谱的基频引导⽅ 法。该⽅法将乐谱
中包含的基频信息引⼊到歌声基频的⽣成算法中, 避免了因数据稀疏⽽造成的合成⾳
⾼在时间和频谱结构上出现偏差的 问题,可以合成出与乐谱相⼀致的具有精准⾳⾼的
基频。
对真实基频和乐谱基频之间可能存在差异的问题进⾏了研究,提出了 在训练中也考虑
乐谱基频因素从⽽准确得到两者之间的差值的⽅法。 利⽤该⽅法可以得到相⽐乐谱基
频引导⽅法更加准确和真实的基频估 计。上述⽅法也可⽤于连⾳符的合成。
HMM
HMM三个基本问题
1.给定⼀个输出序列O和模型⼊,求模型输出此序列的概率。这个问题可通
过前向后向算法求解。
2.给定⼀个输出序列和模型,求最可能输出此序列的状态序列。这个问题可
通过Viterbi算法求解。
3.给定⼀个输出序列和模型结构,求模型参数使得概率最⼤。这是模型的训
练问题,Baum.Welch算法可以⽤来求解。
基于HMM的声⾳合成框架
建模尺度
- 声韵⺟作为建模单元
建模结构
特征提取
从波形中提取基频和频谱特征。
频谱特征采⽤mel-cepstrum特征