所有文章 > 正文

IBM的AI模型可自动为图像生成字幕

作者: Jansfer

时间: 2019-06-25 11:40

目前研究人员已经通过一种关注鉴别字幕模型解决了这个问题。该模型能够通过观察照片中的场景片段来自动构成句子。在字幕生成的步骤中,这种模型可以选择从最后一步开始处理视觉或文本信息。

论文链接:originalstatic.aminer.cn

对编辑们来说,为照片写标题是一件不得不做的苦差事。不过幸运的是,在不久的将来人工智能或许能够处理相应的大部分工作。IBM Research的一个科研团队介绍了一种能够自主制作多样化、具有创造性的字幕模型,相关论文“Adversarial Semantic Alignment for Improved Image Captions”(改进图像标题的对抗性语义对齐)在加利福尼亚州长滩举行的2019年计算机视觉和模式识别会议(CVPR)上发表。

按照句子顺序生成的字幕虽然语法正确但是语言生硬且与语义无关,这是构建字幕自动生成系统需要解决的最主要问题。目前研究人员已经通过一种关注鉴别字幕模型解决了这个问题。该模型能够通过观察照片中的场景片段来自动构成句子。在字幕生成的步骤中,这种模型可以选择从最后一步开始处理视觉或文本信息。

为了确保生成的字幕听起来流利顺畅,研究小组采用了生成对抗网络(GAN),对生成的字幕进行优化。这个生成对抗网络由产生样本的发生器和区分生成样本和实际样本的鉴别器组成。该模型将像素级的场景与生成的单词进行匹配,通过产生样本的发生器对图像和句子对进行组合,而后共同关注鉴别器对所生成句子的“流畅性”进行评分,从而达到优化目的。

数据的集中偏差是字幕系统中另一个常见问题,主要表现为经常遭受过度拟合的数据在后续情境中不能被准确鉴别并生成。需要构建一种特殊的诊断工具,才能解决这一现象。为此,研究人员提出了一个标题图像的测试语料库,若模型性能差则表明数据被过度拟合。

实验中,亚马逊土耳其机械公司(Amazon’s Mechanical Turk)的评估人员被要求识别人工智能模型生成的字幕,并判断在给定几个真实样本和合成样本的情况下,每个标题描述相应图像的能力。研究人员称,总体而言,他们的字幕模型展现了良好的性能。研究人员相信其工作将为新计算机视觉系统奠定基础,并打算在未来的工作中深入探索这些系统。

研究人员提到:“自动图像字幕和场景理解方面的最新进展,将使人工智能系统更可靠,并可以为视障人员带来实质性帮助。连接语言和视觉的语义鸿沟表明,需要将常识和推理共同融入到场景理解中。”

参考:https://venturebeat.com/2019/06/20/ibms-ai-automatically-generates-creative-captions-for-images/

[关于转载]:本文为“AMiner”官网文章。转载本文请联系原作者获取授权,转载仅限全文转载并保留文章标题及内容,不得删改、添加内容绕开原创保护,且文章开头必须注明:转自“AMiner”官网。谢谢您的合作。

二维码 扫码微信阅读
推荐阅读 更多