AMD宣布,Alveo V80 计算加速卡已进入量产阶段
由于我们处于一个杂乱无序的数据堆积如山的时代,单靠一种架构(包括CPU、DSP、GPU、FPGA)无法独自完成数据处理,于是赛灵思开发了 自适应计算加速平台(ACAP)。它既能提高速度,又具有灵活的应变能力。
ACAP 框图
ACAP 是一种高度集成的多核异构计算平台,从构建伊始即可支持软件可编程,拥有高度灵活的、每秒传输速率高达数兆比特的片上网络 (NoC)。NoC无缝集成所有引擎和关键接口,使得该平台在启动时即可使用平台的各项资源,并且方便软件开发者、数据科学家和硬件开发者等都能轻松进行编程。
Versal 产品组合包括 Versal 基础系列( Versal Prime)、Versal 旗舰系列 (Versal Premium)系列和 HBM 系列。
AI 引擎是一种新型硬件模块,专为解决各种应用低时延 AI 推断的新需求而设计,同时支持高级 DSP 实现方案,满足无线和雷达等应用要求。
NoC 无缝集成所有引擎和关键接口,通过一系列工具、软件、库、IP、中间件和固件,让使用者能随时通过业界标准设计流程开发各种定制化的加速计算解决方案。
Versal Prime 基础系列
Versal Premium 旗舰系列是 Versal Prime 基础系列的升级款。与 Versal Prime 系列相比,Versal Premium 系列在其原有的灵活多变的平台上,突破性地集成了功耗优化的网络硬核(ASIC),包括:400G高速加密引擎、600G Interlaken硬核、600G以太网硬核、112G PAM4收发器、带有DMA的PCIe 5.0、CCIX。
Versal Premium 旗舰系列
Versal Premium 系列可提供比当前FPGA高达三倍的吞吐量,且拥有高度集成的软件/硬件平台,内置了以太网接口、Interlaken和加密引擎,以打造快速、安全的网络。该系列还提供了当前部署主流 FPGA 两倍的计算密度,同时还面向持续扩展的多元化且不断演进的云工作负载及网络工作负载,提供了灵活应变的能力。
Versal Premium 系列所提供的网络IP集成,提供了等效22个16nm FPGA的逻辑密度,极大缩减了开发者在设计基础架构与连接上的投入,可以使得开发者将更多的精力专注于差异化,这也意味着Versal Premium系列可以释放更多的逻辑用于个性化定制。
赛灵思的 Virtex UltraScale+ VU9P内部的20万个LUT被用于了控制器、存储器、PCIe接口等基础设施(包括4个存储器、4个控制器和一个PCIe+DMA),而相比之下,Versal Premium系列直接将这些作成了网络硬核,使得其基础设施对于内部的LUT的消耗为0。可以帮助客户降低异构成本,更好的专注于差异化。
对于数据科学家来说,可以通过 TensorFlow、Caffe、PyTorch 等同用框架来利用Versal Premium系列;软件开发者也可通过赛灵思去年推出的Vitis统一开发平台来使用Versal Premium系列;而硬件开发者则可以通过VIVADO平台来使用Versal Premium系列。
Versal Premium 系列所集成的112G PAM4收发器、400G高速加密引擎、600G Interlaken硬核、600G以太网硬核、带有DMA的PCIe Gen5&CCIX等硬核IP,不仅能够提供功能优化的高带宽密度,提供自适应硬件的灵活应变性,还可适合AI和ML,可以帮助客户系统适应不断变化的算法和安全威胁。
随着 5G 网络投入运营,网络流量大幅增长,导致现有空间和功耗范围内功耗优化吞吐量与计算密度的需求不断提高。为支持业界应对这一挑战,Versal Premium 系列提供了高达 9Tb/s 的可扩展、自适应串行带宽。具体方法是将 112G PAM4 收发器与集成的网络功能模块用于核心网、城域网和数据中心互联( DCI )基础设施,将每端口带宽密度提高两倍,并降低时延高达 50%。
另外,在当前400G网络的发展与部署上,58Gb/s的PAM4收发器就足以应对,而Versal Premium系列所集成的112Gb/s PAM4收发器则可在向下兼容的基础上,同时可面向未来的单通道100G光通信和800G网络基础设施的发展需求。并且可兼容更具挑战性的铜缆线和基板。
Versal Premium 系列的通道化以太网硬核能够以最小占板空间提供高达5Tb/s的可扩展以太网吞吐量,可适用于下一代核心网400G和800G基础设施,支持多速率、多标准;支持1.8Tb/s现有的Interlaken协议下的芯片间的互联通信;支持1.6TB/s加密线路速率吞吐量(拥有硬化的400G加密引擎),并支持 AES-GCM-256/128、MACsec 和 IPsec 。
Versal Premium系列是全球逻辑密度最高的7nm可编程逻辑平台,支持硬件差异化、标准演进以及AI/ML。为开发者提供了很大的差异化设计且与未来兼容:如带内网络遥测、vRAN,且适应各种标准与协议;拥有网络异常检测AI:支持入侵检测、恶意软件识别,应对新兴威胁的自适应AI算法,赛灵思随机森林算法IP;配置与网络性能AI:自动检测与性能瓶颈纠正,自动配置,最大限度延长正常运行时间。
Versal Premium 系列拥有业界领先的多太比特吞吐量,相比赛灵思Virtex UltraScale+(VU13P)提升了5倍以上。
在能效方面,Versal Premium系列可以低于100瓦的功耗提供单芯片800G DCI(数据中心互联)吞吐量,与前代的Virtex UltraScale+相比,功耗降低了60%。在数据中心的应用当中,Versal Premium与前代的FPGA相比,可以提供2倍的带宽密度,这也意味着,在带宽相同的情况下,Versal Premium的机柜空间占用只有前代FPGA的一半。
具体到AI性能方面,Versal Premium 系列在NeatNet50(224 x 224)图像分类模型下的性能是英伟达Tesla V100的1.6倍,是英伟达Tesla T4的2.3倍;在Yolov2(608×608)对象检测模型下,性能分别是英伟达V100和T4的4.6倍和7.7倍;在异常检测AI方面(随机森林算法),性能是英特尔Xeon的65倍。
Versal Premium系列不仅拥有1Gb的紧密耦合的存储器,可以改善性能,降低功耗和延时,同时内部还集成了LUTRAM、块RAM、UltraRAM,以及高速片上网络、硬化的内存控制器,可以提供高达123TB/s的片上存储器带宽,分别是英伟达Tesla V100和T4 GPU的9倍和25倍。而将超过123TB/s 的片上存储器带宽与可定制存储器层级相结合,能够减少数据移动从而消除相应的关键瓶颈。
赛灵思Versal Premium系列提供了7款产品,系统逻辑单元从最小160万个到最高740万个;自适应引擎LUT数量从最低72万个到最高340万个。
Xilinix 推出首款 20nm 太空级 Kintex UltraScale XQRKU060 FPGA,数字信号处理(DSP)性能提高了10倍,为深度学习优化的 INT8 峰值性能提供 5.7 tera/s (TOP),与上一代产品相比增加了近25倍。
6月17日,赛灵思推出了全新加速器卡Alveo U30、Alveo U50。
面对网络直播中“资源多观众少”的情况,赛灵思推出基于Alveo U30 加速器卡的高通道密度视频转码一体机。U30 加速器卡采用的是半高半长的外形和单插槽的设计,同时支持H.264/ AVC和H.265/HEVC两种编码格式,每卡能实时2x4KP60超高清转码,最多可支持48个通道。此外,U30支持低时延和超低时延的转码解码,能够在保证视频质量的情况下,将时延降低到100ms。在功耗方面,U30提供低于40w的低功耗设计方案,最高功耗限制为75w。
根据赛灵思的官方数据显示,若把赛灵思RT服务器同HPE ProLiant DL380 服务器相比较,一台搭载8个Alveo U30 加速器的赛灵思 RT 服务器的性能相当于4台搭载32个NVIDIA T4 加速器的HPE ProLiant DL380 服务器,且前者的每卡吞吐量有4倍优势,硬件成本降低6倍,功耗成本降低5倍。此外,赛灵思表示,U30也可以加速英特尔的服务器。
面对“资源少观众多”的情况,赛灵思则提出基于Alveo U50 加速器卡的超低比特率视频转码一体机。该解决方案能够保证在每GB成本视频质量不变的前提下,降低比特率,减小重复性成本实现每流成本最小化,适用于对视频质量要求较高的场景。U50采用赛灵思 UltraScale+架构,率先使用半高半长的外形尺寸和低于75 瓦的低包络功耗。该卡支持高带宽存储器( HBM2 )和 100Gbps 的网络连接,并支持第四代 PCIe 和 CCIX 互联标准。
根据赛灵思的说法,U50能支持1080P、120的HEVC,如果用其他等效的软件基础设施要做到同样的性能,就需要5个HPE ProLiant DL380服务器再要加上10个非常昂贵的至强铂金级的器件才可以实现。但如果是使用U50的解决方案,就只需要1个HPE ProLiant DL385服务器再搭建8个Alveo U50的加速器卡就可以实现了。因此,赛灵思解决方案每节点的吞吐量达到5倍的优势,硬件成本能降低6倍,功耗能降低3倍。
赛灵思也给出了较为简单便捷的软件解决方案。 在赛灵思的服务器优化软件解决方案堆栈中,因同AMD的合作关系,主要使用AMD的EPYC处理器。最底部是赛灵思Alveo U50或U30的加速器卡,加速器卡的上一层是赛灵思加速器二进制文件,该文件主要支持编码、解码和视频处理的功能。文件层的上方是赛灵思媒体加速API和运行时API,支持系统层、软件层等更高层次的应用。最上层则为FFmpeg命令行计算框架。
Xilinx 推出 Alveo U55C 加速卡,与其前身 Alveo U280 卡相比, HBM2 增加一倍至 16 GB,最大功率低至 150 W。U55C 以更小的外形提供更多的计算能力,用于创建基于 Alveo 加速器的密集集群。
AMD 自收购赛灵思以来,已整整两年了。
今天,AMD又发布了FPGA产品“Spartan UltraScale+”,这是Spartan FGPA系列的第六代。
Spartan UltraScale+ 系列有多达9款不同子型号,其中SU10P、SU25P、SU35P主打I/O扩展能力,SU50P、SU55P、SU65P主要面向板卡管理,SU100P、SU150P、SU200P适合物联网与工业互联场景。
Spartan UltraScale+ 系列拥有最多21.8万个逻辑单元,配备最多26.79Mb片上内存(UltraRAM),具备多达572个I/O,以及高达3.3V的电压支持,可为边缘传感和控制应用实现任意连接。它是AMD首款搭载硬化LPDDR5内存控制器的FPGA产品,最高频率4266MHz。
Spartan UltraScale+系列采用了 16nm FinFET制造工艺,相比28nm工艺的前代产品Atrix 7系列,可将总功耗降低多达30%,接口连接功耗降低最多60%。
AMD FPGA产品提供超过15年的超长标准生命周期,还可选延长生命周期,最长可达10年。Spartan UltraScale+ 的标准生命周期支持,就可达2040年之后。
产品阵容
发展历程
AMD宣布,Alveo V80 计算加速卡已进入量产阶段。其基于7nm的Versal XCV80 HBM系列自适应SoC构建,规模达到了2574K个LUT逻辑单元,DSP计算逻辑片也达到10848个。通过搭载Versal HBM技术,加上配备的两个16GB HBM2E内存堆栈,提供了819GB/s 的内存带宽,另外还可以通过板卡上的DDR4插槽再扩充32GB内存,进一步提升性能。I/O挡板处带有四个QSFP56网络接口,均可支持200G网络速率,可提供更为充足的互联带宽。
AMD Alveo V80 加速卡采用全高、3/4长度的扩展卡形态,也就是高约111毫米、长约234毫米。
主芯片采用7nm工艺制造,是一颗Versal HBM XCV80自适应SoC,集成了多达260万个LUT可编程逻辑单元、10848个DSP计算逻辑单元,还整合封装了32GB HBM2E高带宽内存,带宽高达820GB/s。如果需要,还可以通过板载的DDR4 DIMM标准插槽,再扩展最多32GB内存。
网络方面采用QSFP56光纤模块,支持最高800G带宽,可实时处理传入的海量数据,并支持4X200G,以及4X10G/25G/40G/50G等不同工作模式,能通过以太网扩展到数百个节点,组建计算集群。同时内置400G加密引擎、600G以太网硬块,再加上FPGA的硬件灵活性,可以实现线速数据包检测,以及AI支持的异常检测,确保网络安全。
卡上还设置了MCIO扩展端口,可以直连NVMe存储,并完成板对板仿真开发工作。系统连接总线支持一路PCIe 4.0 x16或者两路PCIe 5.0 x8。整卡电气功耗300W,热设计功耗190W,可以采用被动散热。
Versal HBM自适应SoC芯片的整体架构图,可以看到两个Cortex-A72应用处理器核心、两个Cortex-R5F实时处理器核心、可编程逻辑引擎、DPS引擎等核心组件,其中DSP性能比上代提升了2-3倍。
它硬化了与基础设施的连接,包括DDR内存控制器、DMA PCIe控制器、可编程片上网络等,集成度更高,连接更方便。
此外就是网络部分,集成多个高带宽核心,包括一个100G以太网核心、一个600G以太网核心、一个600G Interlaken核心,以及一个400G加密引擎。
和上一代 Alveo U55C 性能对比:内存带宽提升至1.8倍,逻辑单元密度提升至2倍,网络带宽提升至4倍(200G变成800G),PCIe带宽提升至2倍(PCIe 4.0升级到PCIe 5.0)。