谷歌浏览器插件
订阅小程序
在清言上使用

基于自注意力机制的文本生成单目标图像方法

Computer Engineering and Applications(2022)

引用 1|浏览1
暂无评分
摘要
基于自然语言描述的图像合成已成为人工智能领域中的研究热点.借助生成对抗网络,该领域在高分辨率图像合成方面取得了长足的发展.然而,合成单目标图像在真实性上仍存在一定缺陷,如针对鸟类图形合成时,会出现"多头""多嘴"等异常情况.针对此类问题,提出基于自注意力机制的文本生成单目标模型SA-AttnGAN.SA-AttnGAN将文本特征细化为单词特征与句子特征,提高文本-图像的语义对齐性;在AttnGAN初始化阶段,使用自注意力机制,提升文本生成图像模型的稳定性;利用多阶段GAN网络叠加,最终合成高分辨图像.实验数据表明,SA-AttnGAN在Inception Score与Frechet Inception Distance指标得分上优于其他对比模型;合成图像分析表明,本模型不仅可以学习到背景与颜色信息,也能够正确捕捉鸟类头部、嘴部等组成部分的结构性信息,改善Attn-GAN模型生成"多头""多嘴"等错误图像情况.此外,SA-AttnGAN成功地应用于基于中文描述的服装图像合成,具有良好的泛化能力.
更多
AI 理解论文
溯源树
样例
生成溯源树,研究论文发展脉络
Chat Paper
正在生成论文摘要