KDD 2020最佳论文奖出炉！谷歌北航获奖 - 热点 - 科研解读

KDD 2020最佳论文奖出炉！谷歌北航获奖

作者: 小心肝

浏览量: 1204

时间: 2020-08-26 10:12

关键词: KDD，AI顶会，数据挖掘，最佳论文，谷歌研究院

KDD 2020 最佳论文奖由谷歌研究院的 Walid Krichene 和 Steffen Rendle 摘得，最佳学生论文奖由杜克大学的 Ang Li、Huanrui Yang、陈怡然和北航段逸骁、杨建磊获得。

第 26 届 ACM SIGKDD 知识发现和数据挖掘会议（KDD 2020）已于太平洋标准时间 8 月 23 日 - 27 日以虚拟线上方式召开。今年 KDD 收集了 338 篇论文（研究和应用轨道），34 个研讨会，45 个教程（讲座和实践），使其成为计算机科学中最大的应用研究会议之一。

在继时间检验奖，新星奖，创新奖，论文奖，服务奖等奖项公布之后，最佳论文奖也已出炉，其中最佳论文奖由谷歌研究院的 Walid Krichene 和 Steffen Rendle 摘得，最佳学生论文奖由杜克大学的 Ang Li、Huanrui Yang、陈怡然和北航段逸骁、杨建磊获得。

最佳论文奖

最佳论文奖由来自谷歌研究院的 Walid Krichene 和 Steffen Rendle 获得，获奖题目为 On Sampled Metrics for Item Recommendation。

简介：项目推荐的任务需要在给定上下文的情况下对大量的项目进行排序。项目推荐算法是使用依赖于相关项目位置的排名指标来评估的。为了加速度量的计算，最近的工作经常使用抽样的度量，其中只有一组较小的随机项和相关项被排序。

本文对抽样指标进行了更详细的研究，发现它们与精确的度量值不一致，因为它们没有保留相关的语句，例如，说推荐者 A 优于 B 时甚至连期望值也没有。而且，抽样规模越小，指标之间的差异就越小，另外对于非常小的抽样规模，所有指标都会坍缩为 AUC 度量。

作者证明了通过应用一个修正项来提高抽样指标的性能是可行的：通过最小化不同的标准，如偏差或均方误差。最后，对原始抽样指标及其修正变量进行了实证评估。综上所述，作者建议在度量计算中应避免抽样，但是如果实验研究需要抽样，那么作者所提出的修正项可以提高估计的质量。

论文链接：https://aminer.cn/pub/5f03f3b611dc83056223202d?conf=kdd2020

Walid Krichene

Walid Krichene 是谷歌研究所激光小组的成员，从事机器学习和推荐。他还致力于开发使用连续时间和随机动力学的优化方法。他也是 Google 开源 ML 课程推荐系统课程的合著者，在 ML@ 资本。

Steffen Rendle

Steffen rendle 是谷歌的一位研究科学家。在此之前，他是德国康斯坦茨大学的助理教授。Steffen 的研究兴趣是使用因子分解模型进行大规模机器学习。他的研究获得了 2010 年 WWW 网站的最佳论文奖和 WSDM 2010 年的最佳学生论文奖。Steffen 将他的研究应用于各种机器学习竞赛，在 2009 年和 2013 年的 ECML 发现挑战赛中获奖。

最佳学生论文奖

获奖论文：TIPRDC: Task-Independent Privacy-Respecting Data Crowdsourcing Framework for Deep Learning with Anonymized Intermediate Representations

简介：深度学习的成功部分得益于各种大规模数据集的可用性。这些数据集通常来自个人用户，并且包含诸如性别、年龄等隐私信息。用户对数据共享的隐私担忧阻碍了众包数据集的生成或使用，并导致对新的深度学习应用程序的训练数据的渴求。一个自然的解决方案是在用户端对原始数据进行预处理以提取特征，然后只将提取的特征发送到数据采集器。不幸的是，攻击者仍然可以利用这些提取的特征训练对抗分类器来推断私有属性。一些现有技术利用博弈论来保护私有属性。然而，这些防御措施是针对已知的初级学习任务设计的，提取的特征对于未知的学习任务效果不佳。

为了解决学习任务未知或变化的情况，作者提出了一种基于匿名中间表示的任务无关隐私的数据众包框架 TIPRDC。该框架的目标是学习一个特征抽取器，它可以隐藏中间表征中的隐私信息，同时最大限度地保留原始数据中嵌入的原始信息，供数据采集器完成未知的学习任务。

作者设计了一种混合训练方法来学习匿名中间表示：（1）针对特征隐藏隐私信息的对抗性训练过程；（2）使用基于神经网络的互信息估计器最大限度地保留原始信息。他们广泛地评估了 TIPRDC，并将其与使用两个图像数据集和一个文本数据集的现有方法进行了比较他们的结果表明，TIPRDC大大优于其他现有的方法。本文的工作提出了第一个任务独立隐私尊重数据众包框架。

论文链接：https://www.aminer.cn/pub/5f03f3b611dc83056223205b?conf=kdd2020

Ang Li

论文第一作者 Ang Li 是杜克大学电子和计算机工程系的一名在读博士，导师为陈怡然和 Hai "Helen" Li 教授。Ang Li 曾在2013 年获得北京大学软件工程硕士学位，2018 年获得阿肯色大学计算机科学博士学位。

最佳论文亚军

来自弗吉尼亚大学的 Mengdi Huai、Jianhui Sun、Renqin Cai、Aidong Zhang 和来自纽约州立大学布法罗分校的 Liuyi Yao 获得了最佳论文奖的亚军，获奖论文是 Malicious Attacks against Deep Reinforcement Learning Interpretations。

简介：近年来，深度强化学习（DRL）得到了迅速的发展，它是深度学习和强化学习（RL）相结合的产物。然而，深度神经网络的采用使得DRL决策过程不透明，缺乏透明度。基于此，人们提出了各种 DRL 解释方法。然而，这些解释方法隐含着一个假设，即它们是在可靠和安全的环境中执行的。在实践中，顺序 agent-环境交互将 DRL 算法及其相应的下游解释暴露在额外的对抗性风险中。尽管恶意攻击盛行，但目前还没有研究针对 DRL 解释的恶意攻击的可能性和可行性。

为了弥补这一差距，本文研究了 DRL 解释方法的脆弱性。具体来说，作者首先介绍了针对DRL解释的对抗性攻击的研究，并提出了一个优化框架，在此基础上可以得到最优的对抗攻击策略。此外，作者还研究了 DRL 解释方法对模型中毒攻击的脆弱性，并提出了一个算法框架来严格描述所提出的模型中毒攻击。最后，作者进行了理论分析和大量实验，以验证所提出的针对 DRL 解释的恶意攻击的有效性。

这篇论文将深度学习和强化学习结合（DRL），并证明了其在众多序列决策问题中动态建模的能力。为了提高模型的透明度，已经有研究提出了针对 DRL 的各种解释方法。但是，这些 DRL 解释方法隐式地假定它们是在可靠和安全的环境中执行的，但在实际应用中并非如此。弗吉尼亚大学的研究团队调查了一些 DRL 解释方法在恶意环境中的漏洞。具体而言，他们提出了第一个针对 DRL 解释的对抗性攻击的研究，提出了一个优化框架来解决所研究的对抗性攻击问题。

Mengdi Huai