业界 | 深度学习计算哪家强?最新云端&单机GPU横评

选自Medium

作者:Vincent Chu

机器之心编译

参与:路雪、李泽南


近日,Vincent Chu 在 Medium 上发文介绍自己对新一代 GPU 在各类深度学习任务上的测评结果,作者对比了 Paperspace Volta Tesla V100、Google Cloud P100、Amazon EC2 p3.2xlarge(Tesla V100)等云端计算平台,以及 Nvidia GeForce 1080Ti 单卡的成绩,具体测评结果详见全文。


随着机器学习(ML)研究人员和实践者们不断探索深度学习的范围,人们对于强大 GPU 计算能力的需求正在变得愈发强烈。面向目标检测、图像分割和语音转录等各种任务的新模型正在不断发展,并被应用于从自动驾驶到家庭助理等多个行业。


为了满足这样的 GPU 计算需求,亚马逊和谷歌等云服务提供商近期及时在服务项目中加入了 Volta 架构的 V100 GPU 和 Pascal 架构的 P100 GPU。另一家云 GPU 提供商 Paperspace 也在服务项目中加入了 Volta 系列 GPU。P100 和 V100 GPU 是当前市面上最好的 GPU,为机器学习应用实现最优的性能。这些 GPU 的性能优于之前的 Kepler 架构的 K80 GPU,同时它们还具备 16GB 的内存,保证更具表达性的 ML 模型和更大的训练小批量大小。


现代目标检测 pipeline 需要 GPU 来保证高效的训练


为了测试现代 GPU 在典型机器学习任务上的性能,我用英伟达最近发布的 GPU 训练了一个 Faster R-CNN/resnet101 目标检测模型。该模型在 TensorFlow 上实现,输入为 300x300px 的图像,训练小批量大小为 10、15、20 个图像。


测试所用 GPU/云 GPU:


  • Paperspace Volta (https://www.paperspace.com/volta-gpu) (16GB—$2.30/hour)

  • Google Cloud P100 (https://cloud.google.com/gpu/) (16GB—$1.73/hour)

  • Amazon EC2 p3.2xlarge Volta (https://aws.amazon.com/ec2/instance-types/p3/) (16GB—$3.06/hour)

  • Nvidia 1080Ti (https://www.nvidia.com/en-us/geforce/products/10series/geforce-gtx-1080-ti/) (11GB—Personal Machine)


注:该测试主要关注新型 GPU,因此没有测试 K80 和 Quadro GPU,它们的相关测评详见:https://medium.com/initialized-capital/benchmarking-tensorflow-performance-and-cost-across-different-gpu-options-69bd85fe5d58。


结果


从性能来看,Volta 毫无疑问是目前最强大的 GPU,性能显著优于 Nvidia 1080Ti(约 1.1-1.3 倍)和 P100(约 1.2-1.5 倍),尽管 1080Ti 才面世 9 个多月。这反映了英伟达发布强大 GPU 的一贯快节奏。

Volta GPU 的性能优于 Nvidia 1080Ti 和 P100 GPU


值得注意的是,在同样的训练任务上,Amazon Volta 实例性能不如 Paperspace Volta。我简单调查后,认为原因在于实例和 GPU 之间的缓慢输入/输出。只对比 Amazon 和 Paperspace 的 GPU 基准的结果展示了类似的性能。


从成本来看,Paperspace Volta 性价比高。同等性能条件下,Google P100 比 Paperspace Volta 贵大约 10%,亚马逊比 Paperspace Volta 贵 40% 以上。

Paperspace 和 Google 性价比较高


应该用哪种?


  • 重度用户当然应该购买自己的 GPU。从云提供商处租 GPU 时间长了比较昂贵,而购买自己的 GPU,你可以以最低的成本获取最好的硬件,当然前提是你一直使用它们,不让钱白花(特别是在近期 GPU 价格飞涨的情况下)。

  • Paperspace Volta 适合不打算购买 GPU 的用户。对于只需要单个 GPU 的用户来说,使用 Volta 将带来较大的性能提升。

  • Google P100 使用起来最为灵活,它允许用户在任意实例上使用 1、2、4 个 P100 GPU(或最多 8 个 K80 GPU),允许用户自定义 CPU 和 GPU 配置来满足计算需求。尽管由于架构所限,Tesla P100 的性能略显落后,但从成本角度考虑,其性价比很有优势。

  • Amazon Volta 的性能优于 Google P100,也可以连接 1、4 或 8 个 GPU。但是,用户无法自定义基础实例类型。此外,它们性价比比较低。如果你迫切需要用 8 个 GPU 或在 EC2 上搭建模型,那么目前仍推荐使用 Amazon Volta。


原文链接:https://medium.com/initialized-capital/benchmarking-tensorflow-performance-on-next-generation-gpus-e68c8dd3d0d4



本文为机器之心编译,转载请联系本公众号获得授权

✄------------------------------------------------

加入机器之心(全职记者/实习生):hr@jiqizhixin.com

投稿或寻求报道:editor@jiqizhixin.com

广告&商务合作:bd@jiqizhixin.com


如有事情需要联系我们,请发送邮件到:lianxi@wmqn.net