所有文章 > 正文

微软等研究人员提出objGAN从字幕合成图像故事

作者: Jansfer

时间: 2019-06-20 20:06

奥尔巴尼大学和JD人工智能研究院组成的研究团队在加利福尼亚州长滩举行的IEEE计算机协会计算机视觉与模式识别会议(CVPR 2019)上提出了一个机器学习框架,也就是ObjGAN ,它可以理解字幕和标题,绘制布局图,并根据准确的措辞细化细节。

图|运行中的微软ObjGAN(图片来源:Microsoft)

AI目前可以根据描述勾画出对应的图像,这要归功于微软研究院、奥尔巴尼大学和JD人工智能研究院组成的研究团队。该研究小组在加利福尼亚州长滩举行的IEEE计算机协会计算机视觉与模式识别会议(CVPR 2019)会议上发表了一篇论文“Object-driven Text-to-Image Synthesis via Adversarial Training“(通过对抗性训练驱动对象从文本到图像合成 )中,研究小组提出了一个机器学习框架,也就是ObjGAN ,它可以理解字幕和标题,绘制布局图,并根据准确的措辞细化细节。

该论文的共同作者声称,与先前最先进的技术相比,他们的方法可以显着提高图像质量。他们写道:“UR生成器能够利用描绘详尽的文字和表达对象的信息来逐步细化合成图像。大量的实验证明ObjGAN在复杂场景的文本到图像生成中的有效性和泛化能力。”

研究小组指出,在开发文本到图像的人工智能过程中,一个巨大的挑战是让系统了解对象类型,并使其了解场景中多个对象之间的关系。在以前的方法中所使用的图像标题,只能对单个客观对象提供粗略的信息,即使是性能最佳的模型也难以生成包含多个对象的有语义意义的照片。

为了克服这些障碍,研究人员从开放源代码COCO数据集中向ObjGAN提供了100000个标签(每个标签都带有分段图和五个不同的标题)。GANs包含一个生成对抗网络(gan),一个由两部分组成的神经网络,由生成样本的生成器和试图区分生成样本和真实样本的鉴别器组成。随着时间的推移,人工智能系统将对象的外观内部化,并学会从语料库中共同出现的模式合成它们的布局安排,最终生成基于预先生成的布局的图像。

4c526eb6-971a-415a-98e6-c0305dd7f13e-1.png

图|ObjGAN合成的图像(图片来源:Microsoft)

为了在图像生成中实现人性化的表现,团队在ObjGAN中模型化了艺术家绘制和精细复杂场景的方式。系统将输入文本分解为单个单词,并将这些单词与图像中的特定对象相匹配,它利用两个鉴别器(一个面向对象的鉴别器和一个面向补丁的鉴别器)来确定作品是否真实且与句子描述一致。

结果并不完美,ObjGAN偶尔会吐出逻辑上不一致的样本,就像一列火车被困在长满青草的山丘上,上面写着“一列客车在铁轨上滚动”。但考虑到它们是合成的一个整体,仍然令人印象深刻。

微软、Microsoft Dynamics 365 Research、杜克大学、腾讯人工智能研究和卡内基梅隆大学的研究人员在一篇单独的论文“StoryGAN: A Sequential Conditional GAN for Story Visualization“(“StoryGAN:故事可视化的序贯条件GAN )中进一步推动了图像生成,该论文描述了一个系统 (StoryGAN) ,能够从多句段落中生成类似漫画的故事板。StoryGAN类似地构建在GAN上,但独特地包含动态跟踪故事流的上下文编码器以及故事和图像两个级别的两个鉴别器,以增强所生成序列的质量和一致性。

该团队指出,StoryGAN可以扩展为交互式图像编辑,可以根据文本指令顺序编辑输出图像。

参考:venturebeat

[关于转载]:本文为“AMiner”官网文章。转载本文请联系原作者获取授权,转载仅限全文转载并保留文章标题及内容,不得删改、添加内容绕开原创保护,且文章开头必须注明:转自“AMiner”官网。谢谢您的合作。

二维码 扫码微信阅读
推荐阅读 更多