随着移动互联以及云服务的高速发展,对通信运营商和云服务提供商的数据中心提出了更高的要求。一直以来,寻求更低能耗成本和更高效的处理性能成为行业用户的新需求,所以近期英特尔发布了全新的至强D系列产品。该系列特别针对网络设备和运营商而设计,实际性能介于至强E5和凌动C2000系列之间,但它的独特之处在于,这是首款基于至强的SoC芯片,而且采用14nm制程生产,在具备出色低功耗特性的同时,拥有较为不错的性能表现。
此次英特尔率先推出的至强D处理器包括两款产品—D-1540和D-1520,其中D-1540拥有8核心16线程,主频2.0GHz。D-1520拥有4核8线程,主频2.2GHz。两者的TDP功耗均为45W,并且大睿频均为2.6GHz。
英特尔的处理器发展一直遵循“Tick-Tock”周期,Tick代表全新制程更新,Tock代表微架构更新。英特尔在2013年推出代号“Haswell”全新架构CPU,但仍然基于22nm制程;在2014年将制程继续推进到14nm,也就是代号“Broadwell”的产品。“Broadwell”早见于去年9月份推出的Core M系列处理器,在今年的CES上则大放光彩,英特尔共推出了17款Broadwell-U处理器。按照其以往的产品发布进度来看,服务器端的产品基本上会晚于桌面端一代,但3月份就推出的至强D处理器可算是打破了这一规律。这是英特尔首个14nm级的服务器核心,不但几乎同步采用了先进的制造工艺,让其TDP功耗仅在20W~45W之间,而且还是首款基于至强的SoC产品。对于同时追求低功耗和性能的运营商和网络服务商而言,在动态Web服务、专用托管和Web高速缓存为主的超大规模轻量型工作负载,以及公有云、暖存储等领域都会有它的用武之地。
至强D处理器设计为高8个Broadwell核心,每个Broadwell内核本身又包含一个32KB数据高速缓存及一个32KB指令高速缓存,还有一个256KB的二级共享高速缓存,以及1.5MB的末级高速缓存(LLC Cache),末级高速缓存总容量为12MB,并且在所有内核之间还可以共享。该核心还支持超线程技术,即可以支持16线程。所以,至强D的核心和其它至强处理器是相同级别的,这在性能方面就比之前针对低功耗服务器市场的凌动C2000系列拥有较大的优势,而且能够提供至强级别的功能。
由于这一代Broadwell主要是更新制造工艺,其内核架构仍然基于Haswell,因此至强D与至强E系列处理器在所有虚拟化技术、功耗管理RAPL、SMBus PACI接口以及平台存储扩展等方面均保持相同。
在内存控制器方面,它虽然比之前的至强有所缩减,比如只有两个内存控制器,支持双通道内存,四个DIMMs,支持伸缩式128GB可寻址内存。但内存支持却很全面,不但支持DDR3L和新的DDR4内存规格,而且SODIMM、UDIMM、RDIMM等内存种类都支持。
英特尔D处理器拥有双内存控制器,支持DDR3L和DDR4内存。
至强D处理器还支持ECC和非ECC,提供RAS特性,包括一位纠错和双位纠错,同时处理器和DRAM之间具有地址和数据路径纠错的特性,并且对于DDR4,至强D处理器还会使用其他技术,通过置乱来减少错误率。借助DDR4,目前的DIMM技术可以提供两种新功能,一种功能是命令地址模仿,它在Haswell和Broadwell至强D处理器系列产品中均提供。除了该功能,所有的DDR4 DIMM还支持适当的CRC检查,旨在防止写入时出现的错误传播到磁盘,这一功能也在至强D处理器上被使用,以提高使用DDR4技术的容错率。此外,英特尔还在至强D处理器的PCI-E I/O子系统中添加了ECRC保护,支持对CRC包进行微处理,我们可以将包中的CRC信息从设备上直接传送至根组件(Root Complex),而且它会随CRC全程全面保护PCI-E数据以上传的方式通过I/O子系统。
不过在这一代产品上,英特尔并未部署和验证某些更高级的特性,如英特尔高端产品上的镜像和备用特性。
至强D的内存控制器仍然是服务器级的,叫做本地代理内存控制器复合体HAMC。它通过双向环形总线连接高速缓存和内核部分。连接了8个Broadwell内核及8个末级高速缓存片。该环形总线是一种并行架构,每个内核搭配一个高速缓存片,形成一种物理组织。同时,LLC末级缓存在所有内核间共享,每个高速缓存代表一个独立的处理管道。在这一特定配置中,末级高速缓存支持一次处理多达8个并发请求。并且,整个处理过程是处于智能调控状态,在正常情况下,所有8个内核可以访问整个高速缓存、分布式高速缓存及末级高速缓存,并且动态调配内核访问高速缓存区。可以获得较高的命中率,并直接通过用于连接内核及内存系统的高带宽传输环将数据返回至内核。
由于是SoC的系统级芯片,至强D不再需要南桥芯片,整合了所有的I/O接口,包括24条Gen3 PCI-E总线,这24条高速总线可以拆分成一组x16和一组x8,还能进一步拆分成为x4通道,且控制器数量多达6个,因此终能够获得多达6个宽度为x4的独立通道。它还集成了两个10Gbps的网络接口,提供了6个SATA 3、8个PCI-E Gen 2通道(可全部分成8个单独的x1通道),4个USB 3.0、4个USB 2.0以及SPI接口。
至强D的功耗管理技术包括FIVR(电压调整技术),借助该技术,至强D处理器可支持一整套Per-Core P-State (PCPS)功耗管理功能,即支持每个内核在单独的P-State下运行,其中部分内核可以进行睿频加速,而其他基于操作系统请求的内核可保持默认的P1频率,或者降低速度为其他内核进一步睿频留出可用功耗。节能型睿频技术可跟踪哪些内核在睿频加速时有效利用了可用功耗,并可检测出哪些内核不再能够从增加的频率中获益,然后停止这部分内核睿频。并且,如果内核无法充分利用功耗,末级缓存将会把所有内核与内存进行连接,以降低内存延迟,确保数据能够更快从内存返回至内核。至强D处理器还支持一些硬件管理功能,可开启系统定向功能中的功耗管理,能够通过系统软件平台更有效地利用硬件中的可用功耗。另外,在未来,英特尔还将在新处理器中集成更先进的功耗管理系统,无需等待操作操作系统响应,就能够自主调配功耗。当然,它会像希望的那样,具备一套标准的传统I/O,使其成为可以完全独立启动的设备。
其他功能方面,至强D处理器在初的Haswell架构的基础上进行了改进,其中一项改进是事务同步扩展(TSX)。简单来说TSX提供的是一套指令扩展,让程序员可以指定事务型同步代码空间。英特尔公司称,有了事务型同步技术,Haswell处理器将会动态决定线程是否需要锁定—粗粒度锁保证的事务性操作,在高并发下性能下降,作为细粒度锁方案的一种替代,TSX通过硬件辅助保证正确性,使得编程更友好。目前,Broadwell的至强D处理器以及Haswell的E7产品系列都适用此功能。
相比而言,新的Broadwell处理器内核吞吐量要比Haswell处理器提升5.5%。性能的改进集中于每个周期可以处理的指令数量,这里是指原始内核如何能够在不进行重新编译的情况下处理指令流。总体而言,在大部分指令中,其计算性能将比Haswell提高5%。
其他指令方面,对于ADC和SBB等指令,开始从2个微操作减少为1个,以便能够加快使用它们进行加速的指令流的速度。另外如ADCX和ADOX指令,它们不同于nonX指令,不会自动修改,因此当添加指令时内部标记便不会自动修改。由于标记不会自动修改,因此可以写入多种函数,尤如同时维护多个进位链。这些特性在加密算法中尤为有用。借助那些电容指令和这些新指令,一些采用RSA流等特性的加密流程的性能将得到显著提升。它们的性能可能比上一代提升30%,具体取决于如何监控和测量。
在Broadwell至强D处理器的ID桥接线路中有一种称为管理模式执行保护功能。它是一种安全功能,可以防止管理状态应用或上校级别(colonel level)模式应用跳跃,导致在用户页面上进行的数据立即运行,这是一种试图帮助操作系统防止常见攻击的向量。在至强D处理器上进行了扩展,除了可以阻止其在管理状态下从用户页面运行,还可以限制其访问用户页面。
此外,至强D处理器还增强了随机数生成器,在前几代产品中有一款随机读取功能,它有利于创建高质量的随机数,但是它无法生成种子,发送至基于软件的伪随机数生成器。当我们从随机读取结构中获取随机数并将其级联,想要构建1个128位的种子,2个64位的随机数时,其加密强度却不能大于 65位。而借助RDSEED指令,我们生成的随机数能够放入任何长度的种子,因此可以获得强大的加密强度来满足安全需求。我们可以获得128位数的强度,并发送至随机数生成器。对于需要高质量随机数生成器并使用伪随机数生成器的算法,使用RDSPEED指令对其进行加速很容易做到。
新一代的至强D处理器采用了虚拟化增强功能。在Haswell核心的至强E5处理器上,英特尔采用了高速缓存监控技术,支持简单的不良实例监测功能(指性能占用很高但并不关键的线程)。在至强D处理器上则采用的是高速缓存分配技术,不仅可监测这些不良实例,而且还可以进行控制。以前只有监控的时候,当使用监控功能发现不良实例后,我们能够为OS或VMM采取的措施就是移除攻击型线程,从而防止关键线程和不良线程一起运行。
借助高速缓存分配技术,我们可以将末级高速缓存的某些专用权限划分给更高级别的线程,然后将不良实例和低优先级线程移交给高速缓存部分,以便其运行时不会干扰到重要的线程。借助监控技术、OS和VMM自己的优先级以及高速缓存分配技术,我们能够更好地了解芯片上运行的线程的运行状况和服务质量。处理器拥有8个内核,每个内核2条线程,因此将有16条线程争用共享资源,这些技术为管理在处理器内执行的资源提供了方法。
此外,英特尔还在至强D处理器中引进了带宽监控技术,如同高速缓存监控一样,带宽监控用于提供一种机制,帮助识别过度占用内存带宽或过度消耗内存带宽的线程,同样,此处监控的信息将由OS和VM用来调度处理器。为了更好地调度线程,它可以使用内部的调度机制决定出现不良实例或高带宽应用时应该怎么做,以及如何在系统中对其进行分配。由于它是一个单插槽系统,所以如果用户使用的不是多插槽系统,将无法将其移动至其他插槽。在这种情况下,用户可以同时调度关键线程,然后再调度希望在其他时间执行的不良线程。
至强D处理器还拥有其他虚拟化功能,包括主机中断。在以前的虚拟化环境中,中断需要从客户端虚拟机进入主机虚拟机并退出,这很浪费时间。每次进入并退出主机,都需要一些系统开销,如果每次中断都要执行该操作,那么便会从总体上缩短VM的处理开销。借助主机中断功能,我们可以让中断线程在内存中排队。当在主机中执行中断任务时,我们可以将其分区,并决定如何对其进行分组处理,而非反复退出和进入。因此,它可以在虚拟化环境中提供更高效的中断处理。另外,至强D处理器还支持页面修改日志,用于监控和标记已访问页面或脏页。它支持硬件加速记录哪些页面是脏页(而非强制软件执行该操作),表示出正在全速VM的环境中运行或正在执行VM迁移等,我们可以利用修改支持更有效地执行这些操作。VM进入和VM退出流基本上是虚拟环境中的主要性能开销来源,在各代处理器中,英特尔都竭力降低其延迟。Haswell是500个周期,而在Broadwell中,英特尔将其减少到400个周期,因此其数量相对变小。与几代前的产品相比,至强D处理器的VM开销显著降低。
至强D处理器还采用了基于查询的侦测方法,以避免逐出不合理的高速缓存(laughable cache)中的重要高速缓存行。基于查询的侦查是一项出色的技术,当我们准备逐出一行时,我们需要查看哪些内核存放了该行的向量。当我们创建一个内核时,可能会想它是不是刚好是重要的高速缓存行,使用其他的行是否更好。所以,我们能够正确选择要逐出的行,而并非逐出一行后立刻发现内核非常需要它,然后又不得不将其从内存拖回。通过改进高速缓存运行的行为,减少了等待内存的停顿次数,使其能够在使用过程中将其从高速缓存中取出。
至强D处理器在浮点运算方面做出了许多改进。通过将许多除法器运算的带宽提高两倍,另外,插件端点乘法器中采用的矢量乘法器由5个周期减少为3个。浮点运算周期在Broadwell中是3个周期,在Haswell中也是,浮点积和FMA仍然是5个周期。转换缓冲器同样得到了改进,Broadwell现在可在原生阵列中支持16个转换缓冲器条目,同时,标准转换缓冲器队列的大小从1KB提高到1.5KB。通过在处理器中同时部署更多可用转换处理器来减少转换缓冲器错误次数,便能够对一般指令流做出改进。假如出现了未命中情况,那么我们便需要刷新页面以添加更多转换条目,而基于Broadwell的至强D处理器现在引进了第二个页面刷新工具,所以我们无需再按顺序处理页面未命中情况,因为每个内核可以独立处理两个并发页面刷新线程。即便由于转换缓冲器未能即时加载而导致出现未命中,它也能够使用户立即加载指令。此外,处理器内的各种指令也进行了一些改进,ADC指令集将其微操作 (microop)流从2个减少为1个,将性能有效提升2倍。多种应用中常用的CMOV指令减少为单个微操作。加密和高速缓存算法中常用的PCLMULQDQ(参见CLMUL指令集)从2个微操作(7个周期)减少为1个微操作(5个周期),这显著提升了直接加密的软件性能。此外,VCVTPSPS2PH的延迟还降低了25%。过去,英特尔对每个内核部署重要的微架构变更,即Tock,并且尝试在部署重大微架构改进时将性能提升10%-15%。在Tick期间,他们通常会将重点放在技术迁移,仅通过向新和出色的技术迁移,便可获得大量性能优势。对于新的Broadwell,英特尔比其他前几代的一些产品做得更好,提高了5%多一点(不考虑多核、频率或其他影响,只考虑内核本身及其执行指令流所需的时间和周期数量)。
Broadwell为提升浮点运算能力所进行的架构改进和指令集变化
基于众多的技术改进,至强D处理器的内存带宽比Avoton凌动C2000提升78%。如果使用DDR4 2133内存组,理论性能提升幅度可以再提升32%。此外,至强D处理器的内核性能相比Avoton提升2.6倍,Memcached的性能提高2倍,Java的性能提高3.15倍,动态web服务的性能提高3.4倍。在存储方面,大型数据流即流媒体或大型的数据块的处理能力提升34%,小数据块的处理能力则提升2倍。网络方面,大型数据包的转发能力相比Avoton提升2倍,小型数据包的转发性能也提升了3倍。不仅如此,对于用户敏感的能耗表现,至强D处理器的能耗和性能比将比凌动C系列处理器提升1.7倍(该数字将取决于客户的部署)。至强D与至强E5进行比较将如何呢?至强E5产品能够提供出色的性能,如果对比至强E5产品家族和至强D产品家族的高端型号,在堆栈的底部,至强E5拥有6个内核,采用双插槽配置,其性能与至强D相仿。但是,至强E5可以带来更高的可扩展性,支持用户在至强E5上扩展内存和I/O,这是它优于至强D平台的地方。
一直以来,英特尔至强E系列处理器都是服务器市场的中坚力量,但随着移动互联、云服务的兴起,易于部署、灵活性高以及低能耗的处理器成为用户追求的对象。英特尔在2013年就开始推出主打低功耗的Avoton处理器,并被广泛应用于微型服务器、存储服务器等设备中。不过,在微型服务器领域,英特尔不是没有竞争者。ARM凭借其较为成熟的低功耗、低成本性,已经在微服务器市场中占据了一席之地。惠普已经用ARM架构处理器推出服务器产品,戴尔和联想都有意将ARM架构处理器用于自己的服务器产品。百度早在2013年就已经用ARM架构搭建了数据中心,目前据说谷歌、亚马逊和腾讯等互联网巨头都有类似的意向。毕竟对于这些大型互联网企业来说,同时采用ARM架构的处理器可以大幅降低能耗减小运营成本。很明显,在这种市场环境下,英特尔进一步推出至强D处理器是对ARM可能延生的领域进行狙击。
至强D、Atom C2000和至强E5 v3之间的RAS功能支持对比
至强D处理器首先满足了低功耗的需求,同时其重点在于它进一步提升了性能。到2020年,各类设备数量预计将达到500亿,这一数字相比2014年增加了10倍。届时,人类将实现全球联通,数据量也将随之一路攀升。各种复杂的数据将大量涌现,如高清数据、3D数据、音频等。无数用户将需要上传照片、视频游戏至Web,以及采取相当复杂的方式存储非结构化数据和典型结构化数据的复杂CAD图像或其他内容。因此,数据量预计将增加至44ZB,再一次相比当前水平实现了10倍的增长率。在这种背景下,如果数据中心单纯追求低功耗显然是不够的,必须在追求低功耗的前提下,尽量提升网络性能,而至强D处理器正是承担了这样的角色。在前面我们已经了解了至强D处理器的有关技术特点和性能表现,在Avoton处理器的基础上进一步降低了能耗和性能比,并且完全融合了至强E系列处理器的功能特性,部分地方还进行了完善,应该说至强D处理器具备非常明显的优势。
“我们看到了很多轻量级的超大规模工作量(需求)。” 英特尔至强产品线经理Nidhi Chappell说。“很多用户的机架中的工作负荷都是令人真正关心的。这些是可能会倾向应用至强D产品系列的工作负荷。在企业中工作负载的其余部分,例如企业公共云空间、HPC和大数据,这些可能会需要更高的性能,我们估计他们会选择我们的至强E5和E7的产品”。Chappell承认,英特尔在存储和网络市场份额相对较低。Facebook将热存储数据定义为存储的对象(通常是照片和视频),在没有被访问的每一刻,但仍然需要快速的可用性,远远超过移动到冷数据存储的任何数据。她说,英特尔至强D系列处理器大的潜在好处,就是可以在迁移到SDN的网络空间中发挥大的性能。同时她认为,至强D将有很好的市场需求:物联网家电作为一个终端到终端的产品,有些人可能从来没有考虑需要链接。然而物联网家电通常会需要低功耗的嵌入式系统处理器。就像生产地板的机器人,作为物联网边缘设备就需要采用至强处理器。
至强D处理器凭借出色的架构优势和14nm制造工艺所带来的低功耗表现,无疑将进一步强化英特尔在服务器市场中的地位。至强D处理器不仅填补了至强E和Avoton处理器之间的空缺,更是卡住了市场的一个新定位,对于阻止ARM处理器的侵入很重要。该产品家族能将服务器级的可靠性、可用性和可维护性(RAS)等特性赋予那些超高密度和低功耗的设备,这将使得电信服务提供商得以构建智能的边缘网络。