无需直视摄像头!英特尔研发出在视频聊天中用于眼神矫正的新系统
浏览量: 1889
时间: 2019-06-30 15:27
关键词: 因特尔,眼神矫正
图|在输入端(左)中,用户正在看着屏幕;在输出端(右)中,他的目光被矫正成直视摄像机(图片来源:Isikdogan, Gerasimow & Michael)
最近一个来自英特尔的研究团队研发出了一种眼神矫正模型来帮助解决这个麻烦。它可以不受设备的摄像头和显示器位置的影响,恢复实时视频聊天中的眼神交流。与之前所提出的方法不同的是,这种模型不需要输入指定的重定向角度或者相机/显示器/用户几何形状的输入,就能自动将人的视线集中起来。
开展该研究的研究人员之一 Leo Isikdogan说:“我们这个项目的主要目标是通过让眼神交流变得更加容易来提高视频会议的质量,因为在通话过程中看着摄像机是很不自然的,所以在视频通话的过程中很难维持眼神交流。人们喜欢看自己显示器上别人的图像或者自己的预览图像,而不是摄像头。有了这个新的眼神矫正正功能,用户就能够进行自然的面对面交谈。”
Isikdogan和他的同事们进行这项研究的主要目的是创造出自然的视频聊天体验。为了达到这一目标,他们希望用户的眼神能够在矫正模型的帮助下一直集中到谈话当中,从而避免眼神飘出屏幕(比如当他们在看报纸或操纵周围的物体时)。
Isikdogan 说道:“眼神矫正和目光重定向并不是新的研究点,许多研究人员已经提出了通过模型来控制人们在图像中的视点。然而,其中的一些模型需要特殊的硬件设备,以及一些需要用户的额外信息比如朝向和所需的重取向幅度,还有一些需要耗费巨大的计算过程,而且只适用于处理预先录制的视频。”
Isikdogan和他的同事们研发的新系统使用了卷积神经网络(CNN),通过在输入端中弯曲和调整眼睛来调节一个人的眼神。从本质上讲,CNN通过处理单眼图像生成矢量场和亮度图来矫正使用者的眼神。
与之前已经报道的一些方法相比,他们的系统可以实时使用、开箱即用,并且不需要任何的用户输入以及专用硬件。此外,校正器适用于各种不同显示尺寸和不同的摄像机位置。
Isikdogan说道:“我们的眼神矫正器使用了一套控制机制来防止意外情况,并确保眼神矫正器避免做任何令人毛骨悚然的不自然矫正。例如,当用户眨眼或向远处看时,就会自动地禁用校正功能。”
研究者们在一个由合成、照片级真实及标记的图像组成的大数据库中使用双向的方式来训练他们的模型。他们通过这种方式评估模型的有效性以及用户在一系列盲测中是如何进行感知的。
另一位相关的研究员Gilad Michael说:“我们的盲测表明大多数人不知道我们何时打开或关闭算法,他们看不到人为的迹象,只会感觉到他们和正在交流的人一直有着眼神接触。”
通过研究人员的观察发现了有趣的事,他们的模型在没有经过训练的情况下还学会了预测输入的眼神(就是它会在用户的视线被矫正之前判断其目光所在)。他们相信这种能力可能是模型在没有确认用户视线所在情况下,不断将使用者的眼神重定向到中心这一过程的副产品。
Isikdogan解释道:“模型只是涉及到输入的眼神所以可以把它移动到中心,我们也因此可以把目光接触矫正问题看作是目光预测的部分超集。”
研究人员收集的这些发现也强调了使用照片级真实的合成数据来训练算法的价值。实际上他们的模型即使用计算机生成的图像来进行训练所取得的成果依旧显著。研究人员远不是第一个试验合成训练数据的人,但他们的研究进一步证实了其创造高性能应用的潜力。
Isikdogan补充道:“我们还证实了在构建操纵用户输入的模型时充分考虑到映射可逆性非常有用。例如,如果模型将一些像素从左下角移动到中间,我们应该能够要求模型将这些像素移动回左下角,并得到与原始图像几乎相同的图像。这种方法可以防止模型修改无法修复的图像。”
由Isikdogan, Michael和他们的同事Timo Gerasimow提出的这个系统以后可以让视频会议有更好的体验,使用户们更接近于面对面的交流。
Michael 说道:“我们做出了很多努力来确保我们的解决方案切实可行并且做好了用于实际产品的准备,我们现在可能会尝试改进算法带来的一些副产品,例如凝视检测和参与评级来满足类似的用例。”
参考:https://techxplore.com/news/2019-06-intel-eye-contact-video-chats.html
[关于转载]:本文为“AMiner”官网文章。转载本文请联系原作者获取授权,转载仅限全文转载并保留文章标题及内容,不得删改、添加内容绕开原创保护,且文章开头必须注明:转自“AMiner”官网。谢谢您的合作。