GPU加速深度学习

Wesley13
• 阅读 649

原文地址

1. 背景
  一年半以前,AlphaGo完胜李世乭的围棋赛让深度学习(Deep Learning)这个名词家喻户晓,再度掀起人工智能的新一波热潮。其实深度学习背后的神经网络基础理论早在上世纪50年代就已提出,经过几起几落的发展,到了21世纪初,多层神经网络算法也日趋成熟。深度学习理论早在十多年以前就有重要突破,为何直到近年才出现爆发。这不得不提到2012年的一场竞赛。
  2012年,Geoffrey E. Hinton(与Yann LeCun 和Yoshua Bengio并称为深度学习三驾马车)的弟子Alex Krizhevsky在ILSVRC-2012的图像分类比赛中使用2块Nvidia GTX 580 GPU训练的多层神经网络(后来被称为AlexNet)以15.3%的top-5测试错误率摘得冠军,而使用传统方法的第二名的成绩是26.2%,整整提高了10多个百分点。这也成为了深度学习发展史上的里程碑事件,从此深度神经网络一炮走红,此后ILSVRC的优胜者一直被深度神经网络霸占。
  可以说深度学习爆发有两个主要原因,一个是像ImageNet这样的大规模数据集的出现,而另一个重要原因就是计算能力的提高,而这主要得益于GPU用于深度学习的加速,尤其是深度学习训练的加速。
  Alex当时使用的数据集包含120万张高清图片,受限于单块GTX 580 GPU 3GB的内存,他们使用了2块GPU来训练他们包含6000万参数和65万神经节点的网络,当时花了5~6天的时间。可以想象,没有GPU的加速,要完成如此大规模的数据集的多层神经网络训练要花费多长的时间。
  随着深度网络层数的增加,训练集动辄以T为单位计算,现在深度学习的训练已经离不开GPU了,而GPU的计算能力也在不断的提升,以满足深度学习训练的计算需求。
2. 实测
  下面是我们使用主流的几个开源深度学习框架在NVIDIA GPU上做的一些深度学习的测试。其中P100和P4的数据均来自于阿里云GPU云服务器新GPU实例的内部测试数据,仅供参考,实际数据请以线上正式环境为准。
2.1 NVCaffe
  NVCaffe是NVIDIA基于BVLC-Caffe针对NVIDIA GPU尤其是多GPU加速优化的开源深度学习框架。
  我们使用NVCaffe对AlexNet、GoogLeNet、ResNet50三种经典卷积神经网络在单机8卡P100服务器上做了训练测试。测试使用ImageNet ILSVRC2012数据集,,其中训练图片1281167张, 验证测试图片 5万张,LMDB格式train set 240GB ,val set 9.4GB,数据单位是Images/Second(每秒处理的图像张数),OOM表示Batch Size太大导致GPU显存不够。
  下面是给出物理机上GoogLeNet的数据:

  从测试数据我们看到,相同GPU数量,随着Batch Size的增大,训练性能会有明显的提升,相同Batch Size,在GPU Memory基本用满的情况下,随着GPU数量的增加,训练性能也会有明显的提升,GPU加速可以接近线性加速。高密GPU服务器可以接近线性加速,对于大数据集的训练提速非常明显。
  我们还对比了不同卷积神经网络模型的多GPU加速比,结果如下:

  可以看到,不同神经网络模型的GPU加速也是有差别的,AlexNet的多GPU加速效果就不如GoogLeNet和ResNet50好。
2.2 MXNet
  相比Caffe,MXNet是一个更加简洁灵活效率高的开源深度学习框架,它配置简单,依赖少,尤其是具有很好的多GPU加速扩展性。
  我们使用Benchmark模式测试ImageNet训练,使用网络Inception-v3(GoogLeNet的升级版)在单机8卡P100服务器上进行测试,物理机加速比如下:

  可以看到,MXNet也具有非常好的GPU线性加速扩展能力。
  下面是P100虚拟机与AWS P2.16xlarge实例的对比,单位是samples/sec,越大性能越好:

2.3 TensorFlow
  TensorFlow得益于背后Google的支持,是活跃度最高的开源深度学习框架。
  我们使用CIFAR-10数据集在P100上做了多GPU加速训练测试,物理机加速比如下:

  可以看到,TensorFlow的单机多卡加速能力是非常差的,尤其是超过2卡以后,跟NVCaffe和MXNet有较大的差距。
  此外,我们使用AlexNet Benchmark模式对不同架构单GPU 做了Forward和Forward-backward性能测试作为比较参考,包括新的Pascal架构的Tesla P100、P4和老的Kepler架构的K80(其中K80数据来源于AWS P2.16xlarge实例,对比的P100也是虚拟机的数据),数据单位sec/ batch,值越小性能越好:

  通过K80与P100、P4的对比,可以看到Pascal架构的GPU(P100、P4)比Kepler架构的GPU(K80)有非常明显的性能提升。其中特别一提的是P4因为较低的TDP(75W),具备非常好的性能功耗比,非常适合作为推理的加速。
3. 总结
  1) 为了缩短训练时间,尽可能选择新架构的GPU,比如Pascal架构的P100,并利用GPU适合并行计算的特点使用多GPU来加速训练。但是注意,并不是所有的深度学习框架都有好的单机多卡加速,比如开源的TensorFlow就不好,我们建议用户使用比如MXNet或者NVCaffe这样的学习框架用于单机多卡加速。
  2) Batch Size的增大对于训练的性能有明显的提升,因此应尽可能选择GPU Memory大的GPU,比如P100的GPU Memory可以达到16GB。
  3) 不同深度神经网络的实现差异,会导致多GPU加速比的差异,在设计或者优化神经网络模型的时候,需要注意如何更好的利用GPU的并行计算能力,比如减小GPU之间的通信开销以提高GPU并行计算的效率。

愿文地址

GPU加速深度学习

点赞
收藏
评论区
推荐文章
blmius blmius
3年前
MySQL:[Err] 1292 - Incorrect datetime value: ‘0000-00-00 00:00:00‘ for column ‘CREATE_TIME‘ at row 1
文章目录问题用navicat导入数据时,报错:原因这是因为当前的MySQL不支持datetime为0的情况。解决修改sql\mode:sql\mode:SQLMode定义了MySQL应支持的SQL语法、数据校验等,这样可以更容易地在不同的环境中使用MySQL。全局s
皕杰报表之UUID
​在我们用皕杰报表工具设计填报报表时,如何在新增行里自动增加id呢?能新增整数排序id吗?目前可以在新增行里自动增加id,但只能用uuid函数增加UUID编码,不能新增整数排序id。uuid函数说明:获取一个UUID,可以在填报表中用来创建数据ID语法:uuid()或uuid(sep)参数说明:sep布尔值,生成的uuid中是否包含分隔符'',缺省为
待兔 待兔
5个月前
手写Java HashMap源码
HashMap的使用教程HashMap的使用教程HashMap的使用教程HashMap的使用教程HashMap的使用教程22
Wesley13 Wesley13
3年前
PPDB:今晚老齐直播
【今晚老齐直播】今晚(本周三晚)20:0021:00小白开始“用”飞桨(https://www.oschina.net/action/visit/ad?id1185)由PPDE(飞桨(https://www.oschina.net/action/visit/ad?id1185)开发者专家计划)成员老齐,为深度学习小白指点迷津。
Jacquelyn38 Jacquelyn38
3年前
2020年前端实用代码段,为你的工作保驾护航
有空的时候,自己总结了几个代码段,在开发中也经常使用,谢谢。1、使用解构获取json数据let jsonData  id: 1,status: "OK",data: 'a', 'b';let  id, status, data: number   jsonData;console.log(id, status, number )
Wesley13 Wesley13
3年前
mysql设置时区
mysql设置时区mysql\_query("SETtime\_zone'8:00'")ordie('时区设置失败,请联系管理员!');中国在东8区所以加8方法二:selectcount(user\_id)asdevice,CONVERT\_TZ(FROM\_UNIXTIME(reg\_time),'08:00','0
Wesley13 Wesley13
3年前
00:Java简单了解
浅谈Java之概述Java是SUN(StanfordUniversityNetwork),斯坦福大学网络公司)1995年推出的一门高级编程语言。Java是一种面向Internet的编程语言。随着Java技术在web方面的不断成熟,已经成为Web应用程序的首选开发语言。Java是简单易学,完全面向对象,安全可靠,与平台无关的编程语言。
Stella981 Stella981
3年前
Django中Admin中的一些参数配置
设置在列表中显示的字段,id为django模型默认的主键list_display('id','name','sex','profession','email','qq','phone','status','create_time')设置在列表可编辑字段list_editable
Wesley13 Wesley13
3年前
MySQL部分从库上面因为大量的临时表tmp_table造成慢查询
背景描述Time:20190124T00:08:14.70572408:00User@Host:@Id:Schema:sentrymetaLast_errno:0Killed:0Query_time:0.315758Lock_
Python进阶者 Python进阶者
11个月前
Excel中这日期老是出来00:00:00,怎么用Pandas把这个去除
大家好,我是皮皮。一、前言前几天在Python白银交流群【上海新年人】问了一个Pandas数据筛选的问题。问题如下:这日期老是出来00:00:00,怎么把这个去除。二、实现过程后来【论草莓如何成为冻干莓】给了一个思路和代码如下:pd.toexcel之前把这