所有文章 > 正文

好消息!机器学习的基准设定(MLPerf)得到了进一步完善

作者: Jansfer

时间: 2019-06-27 11:50

20世纪70年代的微电脑革命引发了80年代PC电脑的疯狂式扩张。但在这种迅猛发展的背后,存在着一个不可忽视的关键问题,即没有一种标准的方法来比较一台计算机和另一台计算机的性能。这种情况在1988年发生了变化。

图片来源:CC0 Public Domain

在过去的十年里,从雅达利(Atari)到施乐阿尔托(Xerox Alto),数十种PC电脑设备涌入市场。CPU和微型处理器发展迅速,几乎每月都有新一代处理器问世。

但在这种迅猛发展的背后,存在着一个不可忽视的关键问题,即没有一种标准的方法来比较一台计算机和另一台计算机的性能。若没有这种比较,不仅消费者不知道哪个系统更适合他们的需求,而且计算机设计师也没有一个标准的方法来测试他们的系统。

这种情况在1988年发生了变化,当时成立了标准性能评估公司(Standard Performance Evaluation Corporation, SPEC),为计算机生产、维护和认可提供了一套标准化的性能基准。这些基准可以被视为计算机的标准化测试。与SATs或 TOEFL(托福)考试一样,基准测试旨在通过要求相似的参与者完成相同的任务,为他们之间的比较提供一种方法。

自SPEC以来,涌现了几十个基准测试组织,它们都为了提供了一种方法来比较不同芯片和程序体系结构中不同系统的性能。

今天,机器学习领域进入了一个新的世纪。目前,至少有40家不同的硬件公司准备在新的人工智能处理器架构上破土动工。

哈佛大学约翰·a·保尔森工程与应用科学学院(SEAS)的电气工程副教授Vijay Janapa Reddi说:“其中一些公司会崛起,但很多会衰落。我们面临的挑战是,我们如何判断一款硬件是否优于另一款,这就是基准标准重要的地方。”

Janapa Reddi是机器学习基准测试套件ML Perf的领导者之一。ML Perf最初是与百度、伯克利、谷歌、哈佛和斯坦福的研究人员之间进行合作,现在已经发展到包括许多公司、大学,以及全球数百名个人参与者。

ML Perf的目标是创建一种基准,用于测量机器学习软件框架、机器学习硬件加速器、机器学习云和边缘计算平台的性能。

以下是SEAS的研究人员与Janapa Reddi讨论了ML Perf和机器学习基准测试的未来。

SEAS: 首先,机器学习的基准测试是如何工作的?

Janapa Reddi:简单来讲,基准标准是机器学习任务的严格定义,比如图像分类。使用实现该任务的模型(如ResNet50)和数据集(如COCO或ImageNet)来评估模型,使用数据集执行模型时必须达到的目标精度或质量度量。

SEAS:基准测试如何影响您对SEAS的研究?

Janapa Reddi:我个人对自动基准测试和“微型”机器学习系统很感兴趣。

自动驾驶汽车在视觉处理、传感器融合等方面严重依赖于机器学习。自动驾驶汽车的后备箱有超过2500瓦的计算马力。具体来说,智能手机用电量为3瓦,而笔记本电脑平均用电量为25瓦。因此,这些自动驾驶汽车消耗了大量的能量,这在一定程度上要归功于它们所依赖的机器学习。我的Edge计算实验室对降低功耗很感兴趣,同时仍在推动所需的所有处理能力的极限,包括机器学习等。

光谱的另一端是“微型”设备。想想那些消耗毫瓦电能的微型控制器吧,它们可以随意扔来扔去,然后就被遗忘了。如今,微型微控制器是一种无源设备,几乎没有机载智能。但是“TinyML”是一个新兴的概念,专注于微型嵌入式微控制器的机器学习。我的团队正在研究如何启用TinyML,因为我们看到了许多不同的用途。TinyML设备可以监测你的健康,或者适合放在手掌上的小无人机,可以在倒塌建筑物的狭小空间搜索和救援行动,或飞在树和叶子间,来监测农民的庄稼健康并防止害虫。

这是我非常感兴趣的两个领域,特别是在机器学习系统的大背景下,因为有几个有趣的研究问题需要解决,它们不仅涉及机器学习硬件性能,还包括机器学习系统的软件设计和实现。

SEAS:机器学习可以从以前的基准测试工作中吸取什么教训,比如30年前SPEC启动的基准测试工作?

Janapa Reddi:多年来,SPEC CPU一直由不同行业合作伙伴组成的联盟驱动,他们共同确定一组工作负载,这些工作负载可以带来公平和有用的基准测试结果。因此,SPEC工作负载已经成为学术界衡量和比较CPU性能的标准。正如著名的计算机架构师、2017年图灵奖得主David Patterson经常指出的那样,特定的工作量导致了微处理器设计的黄金时代。

我们可以借鉴SPEC中的一些经验教训,并将它们应用到机器学习中。我们需要将学术界和研究界联合起来,创建一个类似的行业合作伙伴联盟,他们可以帮助定义代表真实用例的标准和基准。

SEAS:这就是ML Perf的工作原理吗?

Janapa Reddi:是的。ML Perf是许多组织和几个致力于此的个人共同努力的结果,所有这些组织和个人都致力于为机器学习系统构建一个公平和有用的基准。由于团队的努力,我们提出了基于许多人的智慧和对真实世界中客户用例的深刻理解的基准测试。从事机器学习系统工作的工程师贡献了他们在细微差别的系统问题上的经验,企业可以提供他们的实际用例(当然,需要用户的许可)。根据我们收集的所有信息,由研究人员和工程师组成的ML Perf协作团队策划了一个对学习平台和系统有用的基准测试。

SEAS: ML Perf刚刚宣布了一些新的机器学习基准,对吗?

Janapa Reddi:没错。我们刚刚发布了第一个推理套件,它包含三个不同机器学习任务的五个基准测试:图像分类、对象检测和机器翻译。这三项任务包括众所周知的模型,如MobileNets和ResNet,它们支持针对不同用例(如自动驾驶汽车和智能手机)的不同图像分辨率。

我们使用“LoadGen”来模拟模型,它是一个负载生成器,模拟现实世界中发现的不同用例模式。例如,在智能手机中,我们拍一张照片,把它输入一个机器学习模型,然后急切地等着看它能否识别出图像是什么。显然,我们希望这个推论尽可能快。在相机监控系统中,我们希望查看来自不同相机的多个图片,因此用例对延迟和吞吐量都很敏感(在有限的时间内我可以处理多少图片)。这个带有基准测试的LoadGen将MLPerf与其他基准测试区分开。

SEAS:接下来呢?

Janapa Reddi:基准是迈向更大目标的一步。MLPerf有兴趣将其工作范围从筛选评估系统性能的基准扩展到开发新的数据集,以促进机器学习算法、软件和硬件社区的新创新。到目前为止,我们一直依赖于数据集,这些数据集在很大程度上可以通过开放源码社区中的学者访问。但在某些领域,如语音,确实需要开发至少10到100倍大的新数据集。但仅仅扩大规模是不够的。我们还需要处理数据集中的公平性和多样性的缺乏,以确保在这些数据集中训练的模型是无偏的。

SEAS:你如何处理机器学习的公平性和多样性?

Janapa Reddi:我们与计算与社会研究中心(CRCS)合作创建了“哈佛大学MLPerf研究”,该中心汇集了来自不同领域的科学家和学者,为公众利益服务的计算研究取得进展。通过该中心,我们希望与其他学校的专家联系,解决数据集中的公平和偏见等问题。我们需要的不仅仅是计算机科学家来解决这些问题。

参考:phys.org/news

[关于转载]:本文为“AMiner”官网文章。转载本文请联系原作者获取授权,转载仅限全文转载并保留文章标题及内容,不得删改、添加内容绕开原创保护,且文章开头必须注明:转自“AMiner”官网。谢谢您的合作。

二维码 扫码微信阅读
推荐阅读 更多