所有文章 > 正文

Collaborative Deep Metric Learning for Video Understanding

作者: AMiner

浏览量: 293

时间: 2019-01-04 04:05

关键词: Google,深度学习,视频理解,表示学习,VGG,ResNet-50

收藏学习系列。


论文名:
Collaborative Deep Metric Learning for Video Understanding

作者:

Joonseok Lee (Google AI Perception), Sami Abu-El-Haija (Google AI Perception), Balakrishnan Varadarajan (Google AI Perception), Apostol (Paul) Natsev (Google AI Perception)

推荐理由:

“Collaborative Deep Metric Learning for Video Understanding”是Google AI Perception的一篇文章,这篇文章是提出了一个新的深度学习框架,大大提高了视频理解的精度。传统的视频分析的研究大多针对特定问题,比如视频分类、视频搜索、个性化推荐等;这篇文章提出一个新的表示学习方法,把传统的几个问题都归一化为统一表示的学习问题。最后在2亿多个YouTube视频数据上的实验表明,无论视频分类还是视频推荐都比传统方法好的多。

从方法论文,这篇文章的方法其实很简单,首先对视频的内容进行表示学习,具体来说用的是Inception-v3 网络,另一方面对音频信息也进行表示学习,这里用了一个基于VGG的音频模型和ResNet-50的网络结构。学习的时候使用了排序的Triplet loss,也就是给定三个视频(Anchor、Positive、Negative),保证学习的时候Anchor视频和Positive更相似,和Negative更不相似(Negative可以随机选择一个)。学习的时候把刚才单独学习到的表示作为Triplet Loss function的输入,然后学习每个视频的混合表示(包括视频和音频)。

最后在视频推荐和视频检索方面的效果都很不错。下图是视频推荐的评测结果以及在YouTube-8M数据集上的视频检索的例子。

Abstract

The goal of video understanding is to develop algorithms that enable machines understand videos at the level of human experts. Researchers have tackled various domains including video classification, search, personalized recommendation, and more. However, there is a research gap in combining these domains in one unified learning framework. Towards that, we propose a deep network that embeds videos using their audio-visual content, onto a metric space which preserves video-to-video relationships. Then, we use the trained embedding network to tackle various domains including video classification and recommendation, showing significant improvements over state-of-the-art baselines. The proposed approach is highly scalable to deploy on large-scale video sharing platforms like YouTube. 

[关于转载]:本文为“学术头条”原创文章。转载仅限全文转载并保留文章标题及内容,不得删改、添加内容绕开原创保护,且文章开头必须注明:转自“SciTouTiao”微信公众号。谢谢您的合作。

扫码微信阅读
[关于转载]:本文转载于AMiner,仅用于学术分享,有任何问题请与我们联系:report@aminer.cn。