与第三代EPYC 7003系列处理器相比,新一代EPYC 9004系列处理器有大量的技术进步,主要包括核心数量、计算线程数大幅提升到最高96核心、192线程;5nm“Zen 4”架构带来了标称14%的IPC性能提升;AVX-512指令集的加入;双CPU互联可以最多对外提供160条PCIe 5.0总线;12通道DDR5内存系统则让服务器的内存性能突飞猛进(注:如果您想深入了解新一代EPYC 9004系列处理器的具体技术架构、产品组成,请阅读我们在今天发布的第二篇文章:《第四代AMD EPYC处理器先进技术指南》)。那么在实际测试与应用中,它的性能究竟能有多少提升呢?在此背景下,我们特别针对第四代AMD EPYC(霄龙)9004系列处理器进行了独家测试。
参测处理器规格解析
《微型计算机》评测室本次对AMD EPYC 9654、EPYC 9554、EPYC 9374F这3款处理器进行了详细测试。其中EPYC 9654处理器是第四代EPYC处理器中定位最高的产品,虽然它的最高加速频率在所有产品中不算高,只有3.7GHz,但它却拥有多达96核心、192条线程,384MB三级缓存。相对64核心的产品,其TDP热设计功耗也没有上升太多,为360W,与EPYC 9554这类高频64核心处理器相同。更值得一提的是,AMD EPYC 9654支持组建双路系统,为用户打造192核心、384线程多核心的超多核心计算系统创造了条件,对那些亟需多线程运算性能的渲染与模拟、科学仿真用户颇具吸引力。
而第二款AMD EPYC 9554是一款兼具频率与核心数量的处理器,它采用64核心、128线程设计,能够满足各类服务器应用。之所以它的TDP热设计功耗与AMD EPYC 9654相同,原因就在于它拥有更高的基准频率,从 EPYC 9654的2.4GHz提升到3.1GHz,全核心加速频率也从3.55GHz提升到3.75GHz。它既适用于那些对频率有较高依赖的应用,也能满足各类多线程计算应用的需求。
我们测试的第三款AMD EPYC 9374F处理器有所不同,其型号带有“F”,采用这种命名方式的主要目的是突出它拥有更高的单核心基频及最高加速频率,其基准频率就超过前面两款处理器的最高加速频率,为3.85GHz,单核心最高加速频率可达4.3GHz,全核心加速频率达到4.1GHz。这意味着该处理器很适合进行3D建模与与AEC(建筑、工程、施工)可视化等依赖处理器频率的各类应用,同时其核心、线程数也不少,拥有32核心、64线程配置,也能从事渲染、科学运算之类的工作。
▲AMD EPYC 9654、EPYC 9554、EPYC 9374F都采用接近正方形的外观设计,相比上代EPYC处理器面积更大。
为了更直观地体现第四代EPYC 9004系列处理器的进步,我们还采用第三代AMD EPYC处理器中综合性能最强的EPYC 7763参与了测试,EPYC 7763采用Zen 3处理器架构,7nm工艺打造,基于64核心128线程设计,基准频率为2.45GHz,Boost频率最高为3.5GHz,TDP为280W,支持8通道DDR4 3200内存。在参测处理器中,AMD EPYC 7763的技术规格最接近AMD EPYC 9554,所以请大家特别注意EPYC 9554与EPYC 7763的差异,这也最能体现新一代处理器的进步所在。
我们如何测试
本次测试统一考察的是双路系统的性能,因此所有参测的三款第四代EPYC 9004系列处理器都统一使用了AMD Titanite SP5 2P2U双路主板。内存方面,EPYC 9004系列单路CPU支持12个内存通道,比EPYC 7003系列处理器增加了4个内存通道,其中1DPC(DIMM Per Channel,每通道内存数量)支持12根内存,2DPC支持24根内存;EPYC 9004双路系统则支持24个内存通道,不过由于受限于机架和机箱宽度,双路服务器只能支持1DPC 24根内存。本次测试所使用的内存为三星DDR5 4800 64GB,内存总数量为24根,内存总容量为1.5TB,搭配美光9300系列企业级NVMe SSD。
而基于Zen 3架构的EPYC 7763双路系统则采用AMD DAYTONA_X主板、三星 DDR4 3200 32GB内存,总数量为16根,内存总容量为512GB,搭配三星PM883企业级SSD。接下来我们在Ubuntu 22.04操作系统下,特别采用考察处理器浮点与整数性能、内存性能,以及压缩、光线追踪、科学仿真等十大专业软件、13个子项项目对四款处理器的性能进行了全面测试。
▲本次测试统一考察的是双路系统的性能,第四代EPYC 9004系列处理器采用了AMD Titanite SP5 2P2U双路主板,12通道、24条内存配置。
第四代AMD EPYC处理器双路系统测试平台一览
处理器:EPYC 9654 ×2
EPYC 9554×2
EPYC 9374F×2
内存:三星DDR5 4800 64GB×24
主板:AMD Titanite(BIOS版本:RT1003F)
硬盘:美光9300系列企业级NVMe SSD
操作系统:Ubuntu 22.04
第三代AMD EPYC 7763双路系统测试平台一览
处理器:EPYC 7763×2
内存:三星 DDR4 3200 32GB×16
主板:AMD DAYTONA_X(BIOS版本:RYM1007C)
硬盘:三星 PM883
操作系统:Ubuntu 22.04
性能测试:SPECrate 2017
SPECrate 2017 测试的是在单位时间内运行的实例数量,这是服务器采购时的主要性能指标,所以服务器厂商和处理器厂商通常提供的是这一测试成绩。在SPECrate 2017 中包含SPECrate Integer 和SPECrate Floating Point,前者测试的是整型并发性能,后者测试的是浮点并发性能。
首先我们关注了EPYC 9554与EPYC 7763在双路配置性能上的对比。测试成绩显示尽管两款双路系统的核心数、线程数都为128核心、256线程配置,但使用新架构、DDR5内存,工作频率也更高的EPYC 9554在测试成绩上有非常显著的提升,其浮点运算性能较上一代产品提升了高达90.2%,整数运算性能也提升了多达62.2%。
同时更为惊人的是,即便核心、线程数更少的EPYC 9374F双路系统(64核心、128线程)也战胜了核心、线程数翻倍的AMD EPYC 7763双路系统。我们分析主要原因在于一是EPYC 9374F处理器的工作频率大大提升,其全核心加速频率可达4.1GHz,较EPYC 7763领先900MHz,可以有力弥补在处理器核心数上的不足。二是使用了新的Zen 4处理器核心,即便在同频率下,Zen 4处理器的IPC性能较Zen 3处理器都有14%的性能提升;三是AMD第四代EPYC 9004系列处理器的双路系统可以使用升级了规格的4条Infinity Fabric总线连接两颗处理器,其理论传输带宽最高可达PCIe 5.0 x64即256GB/s,较上代产品使用的PCIe 4.0 x64即128GB/s传输带宽翻倍,可以更通畅、充分地传输两款处理器之间的互联数据,不会存在数据传输瓶颈,从而能更高效地发挥出两颗处理器的最大计算性能;四还是带宽助力,AMD第四代EPYC 9004系列处理器采用的是12通道DDR5 4800内存系统,其每路理论内存带宽也比第三代EPYC使用的8通道DDR4 3200内存系统要大得多,从而也能更好地发挥出新处理器的运算性能。
接下来让我们再看看怪兽级系统:采用192核心、384线程的EPYC 9654双路系统的性能表现。凭借更多的计算核心与线程数,它的表现肯定是最优的,其整数性能相对于EPYC 9554双路系统又领先了多达30.9%,浮点运算性能领先了16.4%。虽说可能由于软件优化有限,无法充分发挥出384条计算线程的最大威力,但可以肯定的是,如果应用场景需要更强大的多线程运算性能,EPYC 9654就是最佳选择。
性能测试:Stream-Triad
Stream是业界广为流行的综合性内存带宽实际性能测量工具之一。和硬件厂商提供的理论最大内存带宽不同,通过fortran、C两种高级且高效的语言编写完成的Stream,可以在测试中充分发挥出内存的能力。Stream一共包含Copy、Scale、Add 和Triad 这4种操作,其中Triad组合了前面3种操作,所以其测试成绩更具参考价值。
从测试结果可以看到,由于参测的AMD第四代EPYC 9004系列处理器每一路采用的是规格大幅提升的12通道DDR5 4800内存系统,相对于第三代EPYC 7763每一路系统采用的8通道DDR4 3200在单路内存带宽在规格上就有大幅提升(460.8GB/s VS. 204.8GB/s),因此最终在实际测试上,AMD第四代EPYC 9004系列处理器双路系统在内存性能上也取得了压倒性的胜利。三款第四代EPYC处理器的内存带宽最低成绩也有741062.959MB/s,相对于EPYC 7763处理器双路系统的内存性能领先多达99.2%。
性能测试:7-ZIP压缩性能
7-Zip是一款完全免费而且开源的压缩软件,其大部分代码都是基于GNU LGPL协议编写,部分代码基于BSD 3-clause协议编写。其压缩性能测试主要考察处理器压缩文件的速度,是一个支持多线程压缩的测试,比较依赖处理器的整数运算性能与内存性能。
结果显而易见,由于在压缩应用中内存的性能也至关重要,只有内存快速地传输需要压缩的文件数据才能提升处理器的压缩效率,因此每路采用12通道DDR5内存的AMD第四代EPYC 9004系列处理器凭借高得多的内存带宽可以轻松地战胜每路采用8通道DDR4内存的EPYC 7763处理器。哪怕是双路EPYC 9374F系统,在核心总数和线程总数都比双路EPYC 7763少一半的情况下,其压缩性能也比EPYC 7763领先了18.1%。而在第四代EPYC处理器中,由于7-ZIP也是一款支持多线程压缩性能的测试,所以核心、线程数更多的192核心、384线程的EPYC 9654双路系统拥有更好的表现,其压缩速度比128核心、256线程配置的EPYC 9554双路系统快了100616MIPS。
性能测试:NAMD
NAMD 是一种并行的分子动力学代码,由伊利诺伊大学厄巴纳- 香槟分校贝克曼高级科学与技术研究所的理论和计算生物物理学小组开发,它主要用于大型生物分子系统的高性能模拟。本次测试中,我们主要通过NAMD来考察参测处理器的浮点性能。
结果与之前的测试类似,凭借Zen 4架构、更高的工作频率、更强的内存与传输总线配置,同为128核心、256线程配置的EPYC 9554双路系统比EPYC 7763双路系统快了44.4%,领先幅度非常明显。其实即使是64核心、128线程配置的EPYC 9374F双路系统在这一测试中也就比7763双路系统仅仅慢了0.47%,差距非常小,这也进一步突出了AMD第四代EPYC 9004系列处理器也有效提升了处理器的单核心性能,使得更少核心的处理器就能媲美上一代旗舰产品。而顶级的192核心、384线程EPYC 9654双路系统依然拥有最好的表现,其执行速度比128核心、256线程配置的EPYC 9554双路系统还快了43%,优势很大。就如我们前面所说,在科学仿真类应用中,是能够发挥出处理器多线程运算性能的。
性能测试:OpenSSL
OpenSSL广泛用于保护服务器之间的通信,这是许多服务器堆栈中的重要协议。OpenSSL测试主要包含生成签名和验证签名两部分,我们在本次此时中主要进行了OpenSSL生成签名测试。
测试结果显示,OpenSSL测试显然是一个非常依赖处理器多线程运算性能的测试,不同核心数、线程数配置的双路系统在成绩上都有显著的区别。如拥有192核心、384线程的EPYC 9654双路系统在签名效率上比128核心、256线程配置的EPYC 9554双路系统快了47.6%。而EPYC 9554双路系统的签名效率又比64核心、128线程配置的EPYC 9374F双路系统快了多达74%。当然处理器架构、工作频率上的不同也可以在OpenSSL生成签名测试上拉开差距,如EPYC 7763双路系统与EPYC 9554双路系统虽然都为128核心、256线程配置,但后者的签名效率比前者快了28.8%,Zen 4架构的优势显而易见。
性能测试:UnixBench Dhrystone 2和Whetstone
本项目主要用于测试Unix系统性能,其中包括测试字符串处理,体现整数性能的Dhrystone 2 using register variables和测试双精度浮点操作速度与效率的Double-Precision Whetstone 这两个测试项目。此外,在这两个测试项目均可选用单线程或多线程进行测试,本次测试我们使用的是多线程。
测试结果与SPECrate 2017类似,首先EPYC 9554双路系统在体现整数性能的Dhrystone 2 using register variables上领先EPYC 7763双路系统高达63.4%,在双精度浮点性能运算上也领先了19.9%,作为两个处理器核心数量、线程数相同的双路系统,第四代EPYC 9004系列处理器的进步得到了充分体现。值得一提的是,64核心、128线程配置的EPYC 9374F双路系统也再次展现了单核心性能大幅增加的实力,其整数性能只落后EPYC 7763双路系统约2.3%,要知道它的处理器核心数量可是比后者少了64颗。而192核心、384线程的EPYC 9654双路系统继续压倒群雄,其整数性能、双精度浮点性能分别领先EPYC 9554双路系统达29.7%、44.6%。
性能测试:C-ray 1.1
C-ray 是一种常用的光线追踪基准测试,可以显示多线程工作负载下处理器的差异,时间越短说明系统性能越强。在本次测试中,我们使用了4K和8K这两种分辨率进行测试,从而对比参测系统在不同负载下的性能差异。
从测试来看,在普通4K分辨率下,可能由于工作负载不是太大,EPYC 9654与EPYC 9554双路系统平台并未拉开差距,耗时相同。不过与上一代EPYC 7763双路系统,以及核心数少得多的EPYC 9374F双路系统相比,它们还是具备明显优势。其中EPYC 7763双路系统的耗时比EPYC 9654与EPYC 9554双路系统多了59.5%,EPYC 9374F双路系统的耗时则比它们多了50%。
而在工作负载更大的8K分辨率下,四个参测系统就都拉开了差距,192核心、384线程的EPYC 9654双路系统相对于128核心、256线程配置的EPYC 9554双路系统优势明显,后者耗时比前者多了28.6%。而相同核心数、线程数的上一代EPYC 7763双路系统在测试耗时上又比EPYC 9554多了17.7%。核心数、线程数最少的EPYC 9374F双路系统垫底。这充分体现出在执行高分辨率光线追踪应用时,用户应尽可能选择采用新架构、新工艺设计,核心线程数尽可能多的双路处理器系统。
性能测试:Sysbench CPU
Sysbench是一款被广泛使用的Linux 基准测试,它可以对CPU进行性能测试,在测试中主要是通过CPU进行质数加法运算,质数极限为10000 个。
同样,这也是一个非常依赖处理器多核心运算性能的测试,EPYC 9654双路系统处于遥遥领先的地位,每秒可完成823134.4轮运算,比EPYC 9554多了35.8%。而EPYC 9554双路系统则凭借新架构、更高的工作频率比核心与线程数相同的上一代EPYC 7763双路系统多了24.2%。值得一提的是,核心与线程数只有EPYC 7763双路系统一半的EPYC 9374F双路系统在该测试中也达到了前者的71.6%,显然这同样应该归功于AMD第四代EPYC 9004系列处理器拥有更强的单核心运算性能,可以有效弥补这类处理器在核心数量上的不足。
性能测试:HPL
HPL的英文全称为“High-Performance Linpack”,Linpack 是国际上一款用于测试高性能计算机系统浮点性能的基准测试工具。通过对高性能计算机采用高斯消元法求解一元N次稠密线性代数方程组的测试,考量高性能计算机的浮点性能。值得一提的是,该测试支持AVX-512指令集,在支持AVX-512技术的硬件上,可以使用AVX-512指令集运算来完成该测试。
相对于不支持AVX-512指令集,基于Zen 3架构的EPYC 7763双路系统来说,新一代EPYC处理器获得了压倒性的胜利。首先相同核心、线程数的EPYC 9554双路系统在测试成绩上领先了EPYC 7763双路系统高达64.8%,即便是核心、线程数只有一半的EPYC 9374F双路系统在该测试中也能达到EPYC 7763双路系统性能的99.3%。而192核心、384线程的EPYC 9654双路系统则一骑绝尘,相对于EPYC 7763双路系统的领先幅度可以达到惊人的101.9%。AMD第四代EPYC 9004系列处理器能有如此大领先的根本原因就在于Zen 4架构支持AVX-512指令集,Zen 3架构不支持。而AVX-512即高级向量扩展512位指令集可以借助宽度达到512bit的数据寄存器,以及大量专用指令,提升处理器在一条指令中处理多个数据点的能力,所以就能在科学模拟、金融分析、人工智能 (AI) /深度学习、图像和音频/视频处理、密码学和数据压缩等支持AVX-512指令集的应用中获得更快的处理能力。
性能测试:DGEMM
DGEMM是我们此次加入的一个新测试,它是一个基于双精度矩阵乘法例行程序的快速基准测试,可计算以下乘积:C←αAB+βC。其中A、B和C是包含双精度浮点值的矩阵,而α和β是标量。AMD的开源DGEMM基准使用了AOCL 4.0的AMD BLIS组件,其结果最终会反馈出一个Gflops值,该值将接近于可实现的最大系统吞吐量。同样这个测试也可以使用AVX-512指令集运算,可以体现处理器在支持AVX-512指令集后的性能优势。
测试结果与HPL相比,可谓有过之而无不及,即便是64核心、128线程的EPYC 9374F双路系统也能小胜不支持AVX-512指令集,128核心、256线程配置的EPYC 7763双路系统。这充分说明,处理器支持AVX-512指令集后,的确能在支持AVX-512指令集的软件中实现处理器的运算性能翻番,以一打二。对于需要使用AVX-512相关软件的用户而言,升级基于Zen 4架构的AMD第四代EPYC 9004系列处理器显然是非常有必要的,可以大幅提高生产力。其他方面,核心、线程数更多的EPYC 9554,EPYC 9654双路系统自然有更强大的性能表现,其中EPYC 9654双路系统的算力突破8000GFLOPS,远超其他型号。
质的飞跃!提升生产力与工作效率的利器
显然,凭借新一代Zen 4架构、对AVX-512指令集的支持、更高的工作频率、更强大的12通道DDR5内存配置,第四代EPYC 9004系列处理器在以上10大测试项目、13个测试小项中都大获全胜,特别是均为128核心、256线程配置的EPYC 9554双路系统在13个子项测试中相对于EPYC 7763双路系统的最大领先幅度达到102%,最小领先幅度也有17.8%。其平均领先幅度高达51.1%,用质的飞跃来形容毫不为过,而这仅仅是在第三代EPYC发布一年后就获得了如此大的进步,可以证明第四代EPYC 9004系列处理器的确是一款在技术架构设计、性能表现上非常成功的产品。
再来看看强大的性能怪兽EPYC 9654,我们认为在所有测试将其他产品都远远甩在身后的192核心、384线程的EPYC 9654双路系统,在很长一段时间内,都是不计成本,亟需性能的用户首选之一。因为根据目前的最新信息,第四代至强可扩展处理器也只能提供最多56个核心,且采用的是8通道DDR5内存配置。而在EPYC 9654之下,还有84核心、168线程的EPYC 9634,64核心、128线程的EPYC 9554、9534系列产品,第四代EPYC 9004系列处理器的高端产品在技术规格上相对于对手具有压倒性的优势。至于像AMD EPYC 9374F这类核心数相对较少的第四代EPYC产品,它则是需要兼顾单核心性能或预算较少用户的高性价比优选。
总体来看,就像消费级产品一样,5nm生产工艺、Zen 4架构、DDR5内存的引入令第四代EPYC 9004系列处理器成为一款技术规格与性能得到大幅提升的产品。要知道由于周边厂商进度滞后的缘故,目前其支持PCIe 5.0 SSD、CXL内存的能力还尚未发挥出来,本次测试结果不能代表它的最终完全体状态,在不久的将来,它还能给用户更多的惊喜。所以可以预见,更具竞争力的AMD第四代EPYC 9004系列处理器将继续成为超融合基础设施、云端应用、数据分析、科学计算、HPC、内容创建等专业领域的领先解决方案,为企业用户提供卓越的性能、可靠的安全特性,并从容应对各种复杂的IT挑战。