旷视天元开源 CUDA INT4量化源码实现助力AI应用落地

目前相对成熟的模型量化方案是 INT8 量化。
以ResNet-50 模型为例，原来须要用 float 32 表示的权重，量化后只须要利用 INT8 表示，通过这样的处理，模型体积可以减少到原来的1/2，再加上 TensorCore 的加持，还会有近 8 倍的网络加速。
而如果更进一步，将模型用INT4 表示，可以带来更多的速率提升。

为了推动低比特量化技能的发展，旷视天元MegEngine 团队开源了 INT4 的源码实现，这也让MegEngine成为首个开源CUDA INT4源码实现的深度学习框架。
MegEngine采取均匀线性量化方案，实现了非对称量化和对称量化两种INT4的数据类型，同时通过算子领悟优化、kernel优化等方法，使得量化后的模型可以依然保持较高的精度以及良好的运行速率。
同样以ResNet-50为例，INT4 比较 INT8 有 1.3倍的加速。

详细代码实现可以访问GitHub链接（https://github.com/MegEngine/examples ）理解详情。

随着 CUDA INT4 的开源，目前MegEngine 框架不仅支持浮点数 FP32 和 FP16，而且支持 INT8 和 INT4 的对称和非对称量化推理。
此外，MegEngine框架开拓了诸多工具，帮助用户提升模型推理性能、简化支配流程，包括自动代码裁剪功能，支持用户全自动的针对算子进行代码裁剪；TracedModule 方案以及 MegEngine Lite，基于旷视海量业务打磨出的模型推理最佳实践，化解模型转换支配难题；流程管理工具FastRun，可以为每个打算自动选择最快的算法，从而担保全体网络的运行韶光最短，让 MegEngine 用户运行不同的网络时都能收成最好性能。

旷视天元开源 CUDA INT4量化源码实现助力AI应用落地

自开源以来，MegEngine不断优化，已先后发布29个版本，推出一系列实用功能，降落AI算法生产门槛，助力AI运用快速落地。
未来，旷视将连续支持和拥抱开源，并将自身在开源领域积累的技能和履历与业界共享，推动人工智能技能创新和行业发展。

本文源自金融界资讯

每期AI知识网

旷视天元开源 CUDA INT4量化源码实现助力AI应用落地

你的人生有哪些格子上理工学子的这份卒业设计用人工打败AI

用易拉罐打造的吊兰花盆手绘创意diy作品制作教程