FPGA-XCVU33P与深度神经网络的近似算法
2023-08-25 09:35:33
FPGA-XCVU33P与深度神经网络的近似算法
在深度学习中,训练模型和在线推断是两个重要阶段。训练过程,分有监督和无监督事情(这个不是我们的重点),而在线推断实际上已经涉及到硬件的选型。一般有三种选型:
CPU方案:这是较为常用的方案。在学习芯片之前,我只知道这个。
GPU方案:英伟达推出了适合在线推断场景的专用GPU。
FPGA-XCVU33P方案:一些公有云厂商推出了基于FPGA-XCVU33P在线推断的云服务(为什么用FPGA-XCVU33P方案,之前我写的笔记中已多次说明,因为需要推断计算的场景太多,数据中心,基站,自动驾驶汽车,摄像头……),另外一些有实力的AI厂商也在自研FPGA-XCVU33P方案。
GPU有强大的并行浮点运算能力,但是高密度的浮点运算势必对系统的能效,实时性,以及数据的存储移动造成很大的压力。越来越多的研究表明,在深度神经网络中采用近似化的方法,可以几乎不损失推断精度的情况下,极大提升系统性能。使用低精度定点数代替浮点数,网络剪枝,网络结构优化,压缩等算法,可以完成近似化,而GPU并不适合这种方法,FPGA-XCVU33P和ASIC在定制化硬件时,可以实现DNN的近似化方法。在赛灵思的ACAP器件上,集成了专门的AI推断计算的加速引擎。
如何使用低精度定点数代替浮点数,如何完成网络剪枝,如何做到深度压缩,并不是本文重点,只需要知道FPGA-XCVU33P可以完成这些动作,所以,结合这些技术的实现,FPGA-XCVU33P可以很好的完成硬件加速。