Xilinx Alveo™ U280算力中心推理卡

2024-03-14 14:42:31

大模型推理的能效和性价比一直是大家关注的焦点，今天要给大家介绍的是基于FPGA的推理方案。

FPGA的轻量化部署流程首次在单块Xilinx U280 FPGA上实现了LLaMA2-7B的高效推理。在OPT-6.7B和LLaMA2-7B上的实验结果表明，基于U280 FPGA的端到端延迟优于NVIDIA V100S GPU。不仅如此，基于U280 FPGA和VHK158 FPGA在能效上超过了NVIDIA V100S和A100 GPU，分别提高了6.0倍和4.2倍，在性价比上提高了1.8倍和1.5倍。这证明了基于FPGA的推理方案在大模型推理方面的应用潜力。