所有文章 > 正文

HPE宣布使用集成GPU解决深度学习的难题

作者: Jansfer

时间: 2019-09-09 13:51

对于如何以最优性能、最低的成本,最大规模地运行人工智能(AI),机器学习(ML)和深度学习(DL)应用程序,一直以来都是一个难题。

hpe宣布使用集成gpu解决深度学习的难题.png

图片来源: Getty图片社

虽然有许多基于云端的方法看起来可行,但对于配置有内部基础架构或混合架构的工作负载却又无能为力。不止我们很迷惑,当大型企业的数据科学家和IT专业人员开始实施AI / ML / DL计划时,这个难题也令他们困惑不已。

这个难题其实已经存在很长时间了。但是现在我们可以通过运行集成图形处理单元(GPU)的ML / DL工作负载来解决这个难题。在过去的几年里,这项技术已经越来越成熟了。

但是直到最近,在一个企业大环境运行大规模的、支持GPU的ML和DL应用程序仍然具有挑战性。所以专家们把图形进行了集成。

每个数据科学家都知道,ML和DL预测模型的训练和推理是密集计算。使用硬件加速器(如GPU)是提供所需计算能力的关键,这样这些模型就可以在合理的时间内进行预测。但是在大型企业环境中使用GPU仍具有挑战性,尤其是对于内部部署:

(1)它们需要一个复杂的软件,涵盖操作系统、中间件代码和应用程序库,而且这些软件的安装和维护比较困难。

(2)GPU不易共享。当它们被共享时,通常利用率很低。这便很难准确预测需求并规划未来的GPU基础架构。

(3)即使只运行一个负载,ML / DL应用程序对GPU的利用率会发生显著变化。这意味着即使通过集成共享GPU,它们也不会被充分利用,除非在应用程序运行时可以自由切换GPU!

集成能帮助解决第一个难题。它可以更轻松地捆绑和部署同一版本的中间件和应用软件;集成还提供了在任何基础架构上运行应用程序的可移植性,无论是在本地还是在公有云中。

为了解决其他挑战,我们需要大规模的集成。比如集成协调器Kubernetes,它支持某种形式的GPU资源共享。但是,此资源共享并不能完全解决上述问题。

现在有一种新的解决方案,例如利用HPE的BlueData平台进行集成,可以解决这个难题。要但是还需要一些新的功能,包括:

(1)随需应变的弹性GPU资源:通过访问一个或多个GPU,可以快速轻松地部署ML / DL应用程序。按需配置新的集成环境,然后在不再需要时取消配置(释放GPU)。

(2)暂停并重新启动GPU的集成:暂停集成器并释放附加的GPU,同时保留正在运行的应用程序的当前状态。允许IT管理员在执行GPU特定代码时监控使用情况并重新分配GPU。

(3)用于GPU资源管理的统一控制台:监控和管理共享的GPU资源库,并提供跨多个主机的应用程序可视性和GPU利用率使用情况报告。

(4)支持多种GPU型号和版本:确保在具有兼容GPU硬件和操作系统驱动程序版本的主机上正确部署特定集成映像。

现在,企业可能够根据自己的特定需求配置和调整平台,同时使用GPU运行分布式ML / DL应用程序,同时最大限度地降低成本并确保最优性能。他们可以使用来自其公共云提供商或本地数据中心的基础架构资源来设置这些环境,也可以在容器化计算节点之间动态调配CPU、内存和GPU资源,从而最大限度地降低运行的成本和运行时间。

注:本文作者Thomas Phelan,其是HPE研究员,也是BlueData(被HPE收购)的联合创始人。

参考:https://venturebeat.com/2019/09/04/solving-the-puzzle-of-deep-learning-with-gpus-and-containers/

[关于转载]:本文为“AMiner”官网文章。转载本文请联系原作者获取授权,转载仅限全文转载并保留文章标题及内容,不得删改、添加内容绕开原创保护,且文章开头必须注明:转自“AMiner”官网。谢谢您的合作。

二维码 扫码微信阅读
推荐阅读 更多