2016年4月1日,英特尔在北京发布了全新的至强 E5-2600 v4家族处理器(简称E5 v4),配备了全新的工艺、全新的架构、更完善的档次划分。那么这一次英特尔在发布会上带来了那些干货?相比2014年9月发布的E5 v3,E5 v4性能提升几何?对于实际的行业用户而言它又带来了哪些好处?就让我们一一为你解读!
随着互联网和移动计算的进一步发展,云以及云代表的产业链在近几年开始呈现爆发的增长态势。无论是国家层面的“互联网+”战略,还是传统产业的互联网转型,再加上各种各样的公众云、私有云、行业云的诞生,云时代下数据的处理、存储、使用成为厂商和用户直面的核心问题。也正是看到了这个变化,英特尔希望借助新的至强 E5-2600 v4,进一步提升性能,加强稳定性,细化功能,让英特尔在云计算时代继续维持绝对的统治力。
首先,我们先熟悉一下至强 E5-2600 v4家族产品的基本情况。至强 E5-2600 v4家族拥有三款不同的核心配置,分别是高核心数(High Core Count,HCC)、中等核心数(Medium Core Count,MCC)和低核心数(Low Core Count,LCC)。其中高核心数高可配置24个内核(但实际产品只开启了22个)、中等核心数高可配置14个内核、低核心产品高可配置8个内核。TDP等数值随着核心数量和频率等不同配置方案而略有不同。技术方面,相比上代至强 E5-2600 v3系列,至强 E5-2600 v4系列的技术改进主要在换用了全新的Broadwell架构、制造工艺进化至14nm、核心数量从上代的18个提升至大22个、超线程核心也顺理成章增加至44个、缓存容量进一步提升至大55MB、首次加入了对3D堆栈式内存技术的支持,使得大内存支持可达3TB以上。此外,诸如资源直配技术(RDT)、虚拟化增强以及TSX交易同步扩展指令集、增强的安全特性等技术也加强了新产品在新应用环境下的优势。
从工艺角度来看,至强 E5-2600 v4家族全部采用了新的14nm工艺,相比之前的22nm工艺而言,新的工艺线宽更小、能够在有限的面积内容纳更多的晶体管、驱动电压也有一定的降低,更节省电能。正是由于新工艺的使用,至强 E5-2600 v4可容纳的内核数量才从之前的多18个提升到大24个—不过由于细分市场和TDP等问题,英特尔在E5级别的处理器上多只开启了22个核心,只有E7等级的处理器上用户才能得到完整的24个核心,不过此时高TDP也会提升至165W。在应用了新工艺后,高核心数配置下,处理器面积达到了465平方毫米,晶体管数量高达72亿个;中等核心数配置的芯片面积为306平方毫米,晶体管数量为47亿个;低核心数配置的核心面积为236平方毫米,晶体管数量为34亿个。相比上一代18核的至强 E5-2600 v3核心面积高达662平方毫米而言,全新的14nm工艺带来的集成度提升有目共睹。
至强 E5-2600 v4家族基本特性概览及与前代产品的主要规格对比。
除了性能外,至强 E5-2600 v4还加强了安全功能,包括加密和安全认证方面的功能。
至强 E5-2600 v4家族HCC、MCC和LCC不同的配置情况。
在核心改进方面,由于本次从Haswell-EP进化至Broadwell-EP属于英特尔架构改进中的“微架构不变,制程工艺更新”的步骤,也就是传说中的“Tick”步骤,因此整体核心只是微调,架构方面的改进并不大,包括core和uncore的前端、指令解码、缓存、各种功能单元、总线、接口等,Broadwell-EP都基本维持了和Haswell-EP一样的设计。尤其是从Ivy-Bridge-EP就开始使用、在Haswell-EP上大幅度改善调整的环形总线,在Broadwell-EP上得到了全盘继承。相比之前的Haswell-EP上多挂载18个处理器核心,Broadwell-EP上高可挂载24个处理器核心,其双向、分组环形总线的设计和缓冲器方案,使得英特尔能够在更多核芯的情况下,实现核心资源的有效调配和控制。
虽然硬件架构基本相同,但这并不意味Broadwell-EP架构没有做出改进。英特尔宣称,相比Haswell-EP, Broadwell-EP的IPC性能略微提升了约5%,其中大的变化发生在调度器和缓冲器上。Broadwell-EP的乱序调度器窗口更大(从60提升至64)、允许更多的指令被重新排队,相应的提高了IPC。此外,L2 TLB也从1K增加至1.5K,减少了地址条目转换失误。在TLB方面,英特尔还增加了一个TLB页面,允许Broadwell-EP同时并行处理内存页。在计算能力方面,Broadwell-EP的浮点能力得到了加强,包括浮点乘法周期从之前的5周期降低至3周期、使用了1024(10bit)分频器等。此外,Broadwell-EP还改进了分支预测单元,从之前的8路提升至10路,在微指令优化方面加强了并行性、减少指令延迟(ADC, CMOV, PCLMULQDQ的指令延迟降低至1uop)、加入了全新指令等。
总的来看,虽然核心架构的改变不总是大幅度的,但每一代英特尔处理器产品在性能上相对于前作都具有优势;配合英特尔比较频繁的核心改进次数,从Nehalem开始,到随后的Sandy Bridge、Ivy Bridge、Haswell再到今天的Broadwell,如果每代的IPC增长都在5%左右的话,数代累积下来整体性能提升是非常可观的。这一次Broadwell-EP是Tick步骤,整体改善并不大,但依旧获得了IPC约5%的提升以及核心数量、频率方面的变化,可想而知下一次Skylake-EP,整体性能有望更进一步增强。
目前Broadwell-EP的TSX功能终于可用了,包括事务型内存等技术都能够正常的为用户提供功能。之前Haswell-EP上,TSX出现了一些BUG,英特尔不得不关闭了这个功能。
Broadwell-EP在IPC上有了一定的提升。
Broadwell-EP进一步加强了AVX性能。
Broadwell-EP在浮点性能和TLB、分支预测上的提升。
英特尔的至强 E5-2600 v4宣称“为云而生”,除了其强大的性能和众多核心数量外,全新技术的加入使得它更能够体现云端优势。在至强 E5-2600 V4上,Resource Director Technology也就是RDT技术的加入堪称“为云而生”。
所谓RDT技术,是指对处理器任务更为精细的调整。我们知道,云端应用基本上都是以虚拟机的方式存在的,一个处理器中可能需要运行大量的虚拟机执行完全不同的任务,这些任务之间如何调整性能分配,就是一个比较重要的问题。在IaaS领域,基础IT资源对上层应用需求的自动化协同是非常重要的,这个过程往往被称之为“编排”。但是问题在于,这种编排的粒度是非常粗的,多就止步于虚拟机逻辑资源的供给。对一些要求更高的任务而言,如何保证资源的倾斜和有效的供给并保证任务的顺利完成,就显得非常重要,尤其是处理器缓存这样敏感而极为稀缺的资源,很多编排层是无能为力的。在这种情况下,英特尔推出了RDT技术,希望可以解决这个问题。
RDT技术有四个功能模块,分别是CMT缓存监测技术、CAT缓存分配技术、MBM内存带宽监测技术、CDP代码和数据分区技术。配合这四大技术,RDT就可以直接调整线程(逻辑处理器),相当于给虚拟机的虚拟处理器分配真是的CPU资源,然后再由编排软件进行缓存的调控。结合CMT和CAT,缓存可是做到实时监测和使用,能够让处理器的资源向虚拟机中重要、紧迫的任务分配。在实际处理过程中,RDT可以为每一个线程分配一个资源监测ID,这个ID可以用来监测每个线程的内存带宽,CAT也为每个线程准备了16个优先级,用户可以通过分配不同的优先级来保障任务的进行。进一步来看,目前的至强 E5-2600 V4做到了对缓存的分配使用,并加入了对内存带宽的监测,下一代处理器中,英特尔可能加入对内存带宽的分配和使用,这样一来无论缓存还是内存带宽,都可以处在用户的监控和分配下,对云端应用的响应速度和优先排序都能给予极大的帮助。
RDT的出现,使得云端应用能够更为方便智能的获取硬件资源,而不是像以往那样被动的排序等待。利用RDT,用户可以制定更为惊喜的服务质量体系,并且可以设定更为实际的云平台服务等级协议等,这对目前快速发展的云应用具有相当重要的商业意义。
RDT功能带来了更智能的任务分配。
至强 E5-2600 v4在云端优化方面可谓不遗余力,除了之前的RDT外,英特尔在新产品上又加入了进一步的网络功能虚拟化和软件定义网络两大功能,进一步加强处理器在云应用场景和虚拟化场景下的能力。
我们先来看第一个功能,网络功能虚拟化(NFV),这个功能主要是针对外部设备向虚拟CPU或者逻辑CPU发起中断请求导致的系统资源开销过大而设计。一般来说,在一个虚拟机系统中,外部设备往往会向虚拟处理器或者下属的逻辑处理器发出中断指令,中断指令的等级比较高,只要接到中断需求后,虚拟机就会响应中断操作,并通过虚拟机管理器接管逻辑处理器,在中断处理完毕后,虚拟机管理器才会释放逻辑处理器给虚拟机。这个过程比较复杂,同时也很耗费系统资源。如果外部设备不断的提出终端需求,整个系统运行速度就会受到严重影响。
为了解决这个问题,英特尔提出了Posted Interrupts技术,这个技术的原理是在接到中断需求后,先不告诉虚拟机,先记录在内存中,并直接发给逻辑处理器,然后再根据此中断的情况判断是否需要通知虚拟机和虚拟机管理器来接管,如果处理器忙碌,也会延迟中断,或者执行中断迁移至空闲处理器。总的来说,这个技术的出现,可以保证逻辑处理器在处理重要任务时不会由于中断而随意停止,影响重要任务的处理速度,同时也节约了系统资源避免了无谓的浪费。根据英特尔的数据,在电信服务器中使用了Posted Interrupts后,电信应用的延迟可以从之前的4us到47μs降低至2.4μs到5.2μs,效果相当明显。
除了Posted Interrupts外,英特尔还提出了虚拟环境下的内存修改日志功能,也就是PML。这项功能的主要作用在于减少由于内存扫描带来的VM Exit/Entry状态,并加速VM迁移。一般来说,VM会经常扫描内存页面,确定在内存和磁盘交换数据时哪些内存页面可用,这个过程可能会带来VM Exit/Entry,影响虚拟机性能。PML功能可以随时记录虚拟机内存页的修改状态,如果某些页面发生更改,PML直接给予标记并写入页面修改日志,这样一来,不需要虚拟机管理器的参与,也避免了VM Exit/Entry的发生,提升了效能。
Posted Interrupts技术能够解决由于无序的中断引发的性能下跌问题。
PML技术可以避免VM Exit/Entry的发生,提升了效能。
至强 E5-2600 v4家族的一些其它特性。
至强 E5-2699 v4处理器正面和背面图(上)、E5 2699 v3和E5 2699 v4正面对比图(下),全新的14nm工艺带来的集成度提升在外观上就可以看出来。
说完了一些基本规格和架构,接下来继续来看产品。英特尔本次发布的至强 E5-2600 V4家族共有27款产品,其中面向主流服务器的型号为16款;面向注重高频率、对多核心不敏感的市场的为3款;面向低功耗市场的有2款;面向工作站应用的为1款;面向存储和通信市场的为5款。
规格方面,至强 E5-2600 V4家族产品的频率跨度范围为1.6GHz~3.5GHz,核心数量从多22个到少4个,缓存容量从大55MB到少10MB,TDP功耗高为145W,低只有50W。各种复杂的核心数量、硬件规格和频率、TDP配置,形成了至强 E5-2600 v4庞大的家族。总的来说,至强 E5-2600 V4家族的产品数量众多,甚至比整个民用市场高中低的产品数量总和还要多,这也充分说明了英特尔细分市场的策略和整个企业级、服务器市场的复杂性。
至强 E5-2600 v4维持了英特尔在服务器市场一贯的强势地位,并且带来了诸多新的特性,全新的处理器和特性有助于英特尔在云计算时代进一步拓宽市场、加强优势地位并获得更多企业的青睐。那么回头看具体的处理器产品,相比上一代即至强E5 v3,至强E5 v4在性能上具备怎样的优势?
至强 E5-2600 v4家族列表
为了一探究竟,MC评测室在同一台英特尔双路服务器上分别安装了至强E5 v3的旗舰型号E5 2699 v3和至强E5 v4的旗舰型号即至强E5 2699 v4;内存统一为8条32GB DDR4 2400组成的256GB四通道内存—由于E5 v3的内存控制器大支持DDR4 2133,因此测试时内存工作在DDR4 2133频率;在升级完厂商提供的新BIOS之后,该服务器搭载的S2600WT主板可以正常识别总计44核心、88线程的的双路E5 2699 v4处理器。
本次测试以行业公允的SPEC cpu2006为主要考察对象。SPEC cpu2006 是一个应用广泛的大型 CPU 性能测试项目。它是由多个机构组成的非营利性组织建立并维护的一套用于评估计算机系统的标准。为了运行SPEC cpu2006测试,我们为测试平台安装了Windows Server 2012 R2系统,还安装了Visual Studio、C++/Fortran Compiler编译器。SPEC Cpu2006 采用新的v1.2版本,此外我们还额外加入了SiSoftware Sandra、CineBench R15测试以观察新老两代E5 2699在内存带宽、内存延迟等项目的差异。
对于SPEC cpu2006测试,我们一般关心 SPECint_base2006 和 SPECfp_base2006、SPECint_rate_base2006 和 SPECfp_rate_base2006 这 4 个得分,前一组(_base)得分衡量平台完成单个任务的快慢,后一组(_rate_base)得分衡量平台的运算吞吐性能。此外,SPEC CPU 测试还会给出两种类型的结果:Base 基准测试结果和 Peak 峰值测试结果,Base 测试要求编译器套件按照指定的规则进行优化,而 Peak 测试则可以允许使用更多地优化技术,作为平台对比,我们均选择 Base 测试结果。终测试结果显示新一代至强E5处理器比上一代产品在性能方面有显著提升,例如在SPEC cpu2006 int rate性能测试中,E5 2699 v4的性能得分1690,比上一代型号E5-2699 v3的1261高出了429,性能提升了约34%。通过对比,E5 2699 v3 的单个任务处理能力相比上一代产品分别提升14.9%(SPECint_base2006得分)和25%(SPECfp_base2006得分),由于该项测试大部分时候仅使用到单个核心(处理器运行在高睿频),E5 2699 v4(3.5GHz)相比 E5 2699 v3(3.6GHz),在频率稍低的情况下,性能却有所提升,证明了 Broadwell- EP 的架构优势确实存在;在多核心满载测试时,两者都工作在2.8GHz频率,但凭架构以及更多核心的优势,E5 2699 v4依然获得了30%左右的综合性能提升。
而从SiSoftware Sandra和CineBench R15的测试结果我们可以一窥至强E5处理器与普通家用处理器在性能上的巨大差异,以及E5 v4相比上一代产品在内存带宽、延迟、内联核带宽等方面可观的的提升幅度。E5 v4的DDR4 2400内存控制器比前一代产品的DDR4 2133控制器在内存带宽上取得了约14%的优势;而新一代Broadwell-EP的三级缓存性能更是比前一代产品有了40%的提升。
SPEC Cpu2006 v1.2对比测试结果
CineBench R15对比测试结果
SiSoftware Sandra对比测试结果
SPEC cpu2006是行业公允的服务器、工作站处理器性能测试软件。
单纯的基准性能分析看起来难免略显枯燥,接下来让我看来看看至强E5 v4处理器在终行业用户手中发挥出的实际作用。
中国移动通信研究院首席科学家易芝玲博士
“从4G跨到5G和我们之前的端到端的跨越,他们是有区别的,大的区别是在于我们新的技术并不是无线电方向的,现在我们发现这些新的演进并不是硬件的,而是软件的,而是云端的。正是因为我们不仅仅需要非常完美的基站的功能,能够非常好的一些虚机的功能。我们希望这些基站在未来能够成为一个小的数据中心,成为一个小的虚拟机,与此同时这些网络上的虚机和基站,在这些基站上我们需在上面施加更多的应用。这样的功能是需要我们减少它的延迟时间,能够让它们更加的灵活,能够更好的去调节一些本地需求。”
“基于我们的经验,是否能够减缓延迟是对我们很大的挑战。这些软件、这些CET和CMT的技术都是利用了RDT(来自至强E5 v4处理器)的技术。有了和英特尔的深度合作伙伴关系,我认为它会给我们带来一个全新的合作愿景,我们可以去从头看到这些表现和性能,不管是吞吐量还是丢包率,我们会发现他们有非常大的提升,提升率在10%-30%,当然这是取决于我们所遇到的困难,取决于我们所处在不同的条件和场景下。总的来说平均提升了18%,提升上限是50%,这是一块巨大的数字,非常了不起的数字。”
百度开放云副总经理谢广军
“百度的开放云,我们的目标是融合了云计算技术、大数据技术和人工智能技术于一身,我们希望能够把这样的一些技术,不仅是百度能用,也希望第三方我们的合作伙伴,我们的客户,我们的一些创业者也能够使用这些能力以及使用这些技术E5 v4的性能比上一代E5 v3提升在15%-20%之间,但功耗下降却是5%-15%。这样就驱动着我们TCO的节省。我们机器学习方面的产品,CTR预估这样一个子模块,在这样的产品当中我们使用英特尔的E5 2699 v4处理器以及AVX2指令集,比传统的方式有67%的性能的提升。除了性能的提升、功耗的降低,在E5 v4这样一个平台上,我们还用到了英特尔CPU很多特性,比如刚才说到资源管理技术,也就是L3 CAT的一个管理技术,那么我们把它用起来之后,其实是和我们的QUS混布起来的程序QUS更加可控。”
“英特尔的底层的技术和我们软硬件优化协同技术和我们联合起来在数据中心的创新能力,这几点结合起来,在百度的数据中心,在性能、功耗、TCO和我们业务场景上都产生了非常大的一个收益。”
从初代E5到如今的E5 v4,英特尔在能效、稳定性、功能和智能化革新方面一直在前进。处理器作为云时代的基石,也是英特尔Cloud For All即“云承万物”理念的有力支撑。无论是架构改进、规格提升,还是看实际性能表现、用户反馈,至强E5 v4交出的答卷无疑是令人满意的。除了“中流砥柱”E5系列,英特尔还通过各个级别、定位清晰的庞大家族式产品线完成了x86阵营对ARM等阵营的卡位阻击。4月份举行的IDF上,英特尔表示将为一小部分客户测试其首批集成FPGA和至强处理器的解决方案。这种将Altera Arria 10 FPGA和英特尔至强E5 v4处理器封装在一起的芯片是可定制的处理器,其接口延迟更低,一致性更好—对下一代网络设备、通信基础设施和数据中心的负载加速具有革命性意义。这种定制处理器的性能很强悍,在业界标准的FPGA加速测试中其性能可获得10倍提升,在此不做赘述,重点在于它让我们看到了至强处理器新的应用形态。
在“生态”概念大行其道的今天,至强E5 v4对英特尔生态系统而言无疑又是一次有益的添砖加瓦。而无论是定制化至强处理器,还是通过与合作伙伴共同打造高性能计算平台,英特尔在下一代大数据、云计算、机器学习以及虚拟应用环境之路上的耕耘无疑已经更加深化。