基本信息
浏览量:821
职业迁徙
个人简介
语音识别方面:
1.提出了一种改进的特征提取方法FBE-MFCC(基于频带能量的美化倒谱),在利用人类的听觉特性进行分析时考虑了频带能量,提高了所提取特性的可区分性以及噪音鲁棒性。
2.提出了汉语扩展声韵集概念、声学精细建模方法、上下文相关加权方法等,在声学层面给出了语音识别中随意发音及口音问题的解决方案。
3.提出了用以描述词汇内在关系的WST(词搜索树)结构,从结构上解决了连续语音识别中的词解码问题,从而在语言层面给出了汉语语音识别中口音问题的解决方案。
4.提出了汉语音节映射的概念以及声学校正器模型,用很少的方言背景数据库,就可以直接从普通话识别器中得到含方言背景的普通话识别器,为低资源语言的声学模型训练提供了方便。
语言理解方面:
5.提出了口语对话系统框架方法,包括鲁棒的语义分析器、基于主题数森林结构的对话管理器、文本生成器等可配置模块,使口语对话系统的定制化实现变得行和高效。
声纹识别方面:
6.提出了基于Cohort的说话人模型合成算法,以解决跨信道问题。
7.构建了一个用于研究声纹时变特性的数据库,即人和音都相同仅时间不同(时间跨度为5年以上,间隔为1周),在此基础上,研究并提出了根据说话人区分度与时间区分度之比去确定不同频段的频率分辨率的特征提取方法,解决了声纹的时变问题。
8.提出双谱分析(信号域)、基于F-ratio的特征选择(特征域),以及多模型融合(模型域)方法,综合地解决了声纹识别的录音重放攻击的检测问题。
9.提出基于音素类的超短语音声纹识别方法,可在保证声纹识别性能不变的情况下用户发音长度由20秒缩短至1~2秒,提供了用户体验。
可信身份认证方面:
10.提出基于生物特征的可信身份认证必须至少满足三个技术要求的理念,即精准生物特征识别、防假体攻击能力,以及用户真实意图检测能力。
11.利用语音信号的特点,提出并实现基于声纹的身份认证中防假体攻击的方法,包括:声纹识别的同时对系统随机产生的密码文本进行语音识别、用户对密码文本的读音可自己定义,以及检测语音是否经过了录音重放。
12.提出并实现综合利用语音识别、情感识别和语义理解进行真实意图检测的方法。
1.提出了一种改进的特征提取方法FBE-MFCC(基于频带能量的美化倒谱),在利用人类的听觉特性进行分析时考虑了频带能量,提高了所提取特性的可区分性以及噪音鲁棒性。
2.提出了汉语扩展声韵集概念、声学精细建模方法、上下文相关加权方法等,在声学层面给出了语音识别中随意发音及口音问题的解决方案。
3.提出了用以描述词汇内在关系的WST(词搜索树)结构,从结构上解决了连续语音识别中的词解码问题,从而在语言层面给出了汉语语音识别中口音问题的解决方案。
4.提出了汉语音节映射的概念以及声学校正器模型,用很少的方言背景数据库,就可以直接从普通话识别器中得到含方言背景的普通话识别器,为低资源语言的声学模型训练提供了方便。
语言理解方面:
5.提出了口语对话系统框架方法,包括鲁棒的语义分析器、基于主题数森林结构的对话管理器、文本生成器等可配置模块,使口语对话系统的定制化实现变得行和高效。
声纹识别方面:
6.提出了基于Cohort的说话人模型合成算法,以解决跨信道问题。
7.构建了一个用于研究声纹时变特性的数据库,即人和音都相同仅时间不同(时间跨度为5年以上,间隔为1周),在此基础上,研究并提出了根据说话人区分度与时间区分度之比去确定不同频段的频率分辨率的特征提取方法,解决了声纹的时变问题。
8.提出双谱分析(信号域)、基于F-ratio的特征选择(特征域),以及多模型融合(模型域)方法,综合地解决了声纹识别的录音重放攻击的检测问题。
9.提出基于音素类的超短语音声纹识别方法,可在保证声纹识别性能不变的情况下用户发音长度由20秒缩短至1~2秒,提供了用户体验。
可信身份认证方面:
10.提出基于生物特征的可信身份认证必须至少满足三个技术要求的理念,即精准生物特征识别、防假体攻击能力,以及用户真实意图检测能力。
11.利用语音信号的特点,提出并实现基于声纹的身份认证中防假体攻击的方法,包括:声纹识别的同时对系统随机产生的密码文本进行语音识别、用户对密码文本的读音可自己定义,以及检测语音是否经过了录音重放。
12.提出并实现综合利用语音识别、情感识别和语义理解进行真实意图检测的方法。
研究兴趣
论文共 313 篇作者统计合作学者相似作者
按年份排序按引用量排序主题筛选期刊级别筛选合作者筛选合作机构筛选
时间
引用量
主题
期刊级别
合作者
合作机构
2023 4th International Conference on Electronic Communication and Artificial Intelligence (ICECAI)pp.319-323, (2023)
引用0浏览0EIWOS引用
0
0
ICASSP 2023 - 2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)pp.1-5, (2023)
引用1浏览0EIWOS引用
1
0
Advances in Computer Vision and Pattern Recognitionpp.387-419, (2023)
2023 4th International Conference on Computer Vision, Image and Deep Learning (CVIDL)pp.453-457, (2023)
引用0浏览0EIWOS引用
0
0
ICASSP 2024 - 2024 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (2023): 12426-12430
APSIPA TRANSACTIONS ON SIGNAL AND INFORMATION PROCESSINGno. 2 (2022)
引用0浏览0引用
0
0
加载更多
作者统计
合作学者
合作机构
D-Core
- 合作者
- 学生
- 导师
数据免责声明
页面数据均来自互联网公开来源、合作出版商和通过AI技术自动分析结果,我们不对页面数据的有效性、准确性、正确性、可靠性、完整性和及时性做出任何承诺和保证。若有疑问,可以通过电子邮件方式联系我们:report@aminer.cn