允中 摘录编译

量子位 出品 | "大众年夜众号 QbitAI

移动设备上支配深度神经网络的需求正在快速增加。

和桌面平台类似,GPU也能在移动平台加速推理速率、降落能耗。
但问题是,大多数现有深度学习框架并不能很好的支持移动GPU。

若何让手机快速运行AI应用这有份TVM优化教程

为什么会这样?由于移动GPU和桌面GPU在架构上存在差异。

以是想要利用移动GPU,还得进行专门的优化。
这种额外的事情,终极导致的结果便是大多数深度学习框架都对移动GPU的支持不敷。

TVM通过引入一个统一的IR堆栈来办理不同硬件平台的支配问题。
利用TVM/NNVM可以为ARM Mali GPU天生高效内核,并且进行端到真个编译。

基于Mali-T860 MP4的测试结果表明,与Arm Compute Library比较,上面这个方法在VGG-16上快1.4倍,在MobileNet上快2.2倍。

在郑怜悯揭橥的这篇文章中,他还从GPU架构、卷积为例的优化等方面进行了更为详细的阐述。
我们在这里就不详细复述。

这篇文章的原文地址:http://tvmlang.org/2018/01/16/opt-mali-gpu.html

关于TVM和NNVM,量子位之前也有宣布:

陈天奇团队发布TVM:把深度学习支配得手机、树莓派等更多硬件

陈天奇团队发布NNVM编译器,性能优于MXNet,李沐撰文先容

关于郑怜悯同学的研究,还有另一个好玩的事情:

不好,两群AI打起来了!

— 完 —

诚挚招聘

量子位正在招募编辑/,事情地点在北京中关村落。
期待有才华、有激情亲切的同学加入我们!
干系细节,请在量子位公众号(QbitAI)对话界面,回答“招聘”两个字。

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技能和产品新动态