基于全相位滤波器组频带鉴别的生成对抗网络声码器设计

Huang Xiangdong,Wang Junqin, Ma Jinying, Zhang Xuanyi

Journal of Tianjin University(2023)

引用 0|浏览3
暂无评分
摘要
为实现高质量、高效率、低成本的语音合成,设计开发了一种基于全相位滤波器组频带鉴别的生成对抗网络声码器 APFB-GAN.该声码器以现有的 HiFi-GAN 为参考,在生成器中,削减了 HiFi-GAN 多感受野融合模块约 60%的参数.在鉴别器中做了两点改进:一是将 HiFi-GAN 中多尺度鉴别器与多周期鉴别器替换为基于全相位滤波器组的鉴别器,克服了原有模型无法依据语音能量非均匀频带分布,灵活进行特征特征提取的缺点;二是提出基于频带加权的多窗长的短时傅里叶变换谱损失函数,配合鉴别器更好地稳定训练.实验结果表明:APFB-GAN 声码器合成的语音质量可与 HiFi-GAN 相媲美,且其高频细节特征更为突出,模型参数只为 HiFi-GAN 的 28.78%,在GPU 上的合成速度是 HiFi-GAN 的 2.4倍.
更多
AI 理解论文
溯源树
样例
生成溯源树,研究论文发展脉络
Chat Paper
正在生成论文摘要