MCPLive > 杂志文章 > 强势插入 英特尔至强D处理器解析

强势插入 英特尔至强D处理器解析

2015-05-12刘斌《微型计算机》2015年5月上

SoC整合了丰富的接口

由于是SoC的系统级芯片,至强D不再需要南桥芯片,整合了所有的I/O接口,包括24条Gen3 PCI-E总线,这24条高速总线可以拆分成一组x16和一组x8,还能进一步拆分成为x4通道,且控制器数量多达6个,因此终能够获得多达6个宽度为x4的独立通道。它还集成了两个10Gbps的网络接口,提供了6个SATA 3、8个PCI-E Gen 2通道(可全部分成8个单独的x1通道),4个USB 3.0、4个USB 2.0以及SPI接口。

提升了功耗控制能力

至强D的功耗管理技术包括FIVR(电压调整技术),借助该技术,至强D处理器可支持一整套Per-Core P-State (PCPS)功耗管理功能,即支持每个内核在单独的P-State下运行,其中部分内核可以进行睿频加速,而其他基于操作系统请求的内核可保持默认的P1频率,或者降低速度为其他内核进一步睿频留出可用功耗。节能型睿频技术可跟踪哪些内核在睿频加速时有效利用了可用功耗,并可检测出哪些内核不再能够从增加的频率中获益,然后停止这部分内核睿频。并且,如果内核无法充分利用功耗,末级缓存将会把所有内核与内存进行连接,以降低内存延迟,确保数据能够更快从内存返回至内核。至强D处理器还支持一些硬件管理功能,可开启系统定向功能中的功耗管理,能够通过系统软件平台更有效地利用硬件中的可用功耗。另外,在未来,英特尔还将在新处理器中集成更先进的功耗管理系统,无需等待操作操作系统响应,就能够自主调配功耗。当然,它会像希望的那样,具备一套标准的传统I/O,使其成为可以完全独立启动的设备。

指令功能更完善

其他功能方面,至强D处理器在初的Haswell架构的基础上进行了改进,其中一项改进是事务同步扩展(TSX)。简单来说TSX提供的是一套指令扩展,让程序员可以指定事务型同步代码空间。英特尔公司称,有了事务型同步技术,Haswell处理器将会动态决定线程是否需要锁定—粗粒度锁保证的事务性操作,在高并发下性能下降,作为细粒度锁方案的一种替代,TSX通过硬件辅助保证正确性,使得编程更友好。目前,Broadwell的至强D处理器以及Haswell的E7产品系列都适用此功能。

相比而言,新的Broadwell处理器内核吞吐量要比Haswell处理器提升5.5%。性能的改进集中于每个周期可以处理的指令数量,这里是指原始内核如何能够在不进行重新编译的情况下处理指令流。总体而言,在大部分指令中,其计算性能将比Haswell提高5%。

其他指令方面,对于ADC和SBB等指令,开始从2个微操作减少为1个,以便能够加快使用它们进行加速的指令流的速度。另外如ADCX和ADOX指令,它们不同于nonX指令,不会自动修改,因此当添加指令时内部标记便不会自动修改。由于标记不会自动修改,因此可以写入多种函数,尤如同时维护多个进位链。这些特性在加密算法中尤为有用。借助那些电容指令和这些新指令,一些采用RSA流等特性的加密流程的性能将得到显著提升。它们的性能可能比上一代提升30%,具体取决于如何监控和测量。

在Broadwell至强D处理器的ID桥接线路中有一种称为管理模式执行保护功能。它是一种安全功能,可以防止管理状态应用或上校级别(colonel level)模式应用跳跃,导致在用户页面上进行的数据立即运行,这是一种试图帮助操作系统防止常见攻击的向量。在至强D处理器上进行了扩展,除了可以阻止其在管理状态下从用户页面运行,还可以限制其访问用户页面。

此外,至强D处理器还增强了随机数生成器,在前几代产品中有一款随机读取功能,它有利于创建高质量的随机数,但是它无法生成种子,发送至基于软件的伪随机数生成器。当我们从随机读取结构中获取随机数并将其级联,想要构建1个128位的种子,2个64位的随机数时,其加密强度却不能大于 65位。而借助RDSEED指令,我们生成的随机数能够放入任何长度的种子,因此可以获得强大的加密强度来满足安全需求。我们可以获得128位数的强度,并发送至随机数生成器。对于需要高质量随机数生成器并使用伪随机数生成器的算法,使用RDSPEED指令对其进行加速很容易做到。

虚拟化增强功能

新一代的至强D处理器采用了虚拟化增强功能。在Haswell核心的至强E5处理器上,英特尔采用了高速缓存监控技术,支持简单的不良实例监测功能(指性能占用很高但并不关键的线程)。在至强D处理器上则采用的是高速缓存分配技术,不仅可监测这些不良实例,而且还可以进行控制。以前只有监控的时候,当使用监控功能发现不良实例后,我们能够为OS或VMM采取的措施就是移除攻击型线程,从而防止关键线程和不良线程一起运行。

至强D处理器的部分虚拟化功能特征
至强D处理器的部分虚拟化功能特征

借助高速缓存分配技术,我们可以将末级高速缓存的某些专用权限划分给更高级别的线程,然后将不良实例和低优先级线程移交给高速缓存部分,以便其运行时不会干扰到重要的线程。借助监控技术、OS和VMM自己的优先级以及高速缓存分配技术,我们能够更好地了解芯片上运行的线程的运行状况和服务质量。处理器拥有8个内核,每个内核2条线程,因此将有16条线程争用共享资源,这些技术为管理在处理器内执行的资源提供了方法。

此外,英特尔还在至强D处理器中引进了带宽监控技术,如同高速缓存监控一样,带宽监控用于提供一种机制,帮助识别过度占用内存带宽或过度消耗内存带宽的线程,同样,此处监控的信息将由OS和VM用来调度处理器。为了更好地调度线程,它可以使用内部的调度机制决定出现不良实例或高带宽应用时应该怎么做,以及如何在系统中对其进行分配。由于它是一个单插槽系统,所以如果用户使用的不是多插槽系统,将无法将其移动至其他插槽。在这种情况下,用户可以同时调度关键线程,然后再调度希望在其他时间执行的不良线程。

至强D处理器还拥有其他虚拟化功能,包括主机中断。在以前的虚拟化环境中,中断需要从客户端虚拟机进入主机虚拟机并退出,这很浪费时间。每次进入并退出主机,都需要一些系统开销,如果每次中断都要执行该操作,那么便会从总体上缩短VM的处理开销。借助主机中断功能,我们可以让中断线程在内存中排队。当在主机中执行中断任务时,我们可以将其分区,并决定如何对其进行分组处理,而非反复退出和进入。因此,它可以在虚拟化环境中提供更高效的中断处理。另外,至强D处理器还支持页面修改日志,用于监控和标记已访问页面或脏页。它支持硬件加速记录哪些页面是脏页(而非强制软件执行该操作),表示出正在全速VM的环境中运行或正在执行VM迁移等,我们可以利用修改支持更有效地执行这些操作。VM进入和VM退出流基本上是虚拟环境中的主要性能开销来源,在各代处理器中,英特尔都竭力降低其延迟。Haswell是500个周期,而在Broadwell中,英特尔将其减少到400个周期,因此其数量相对变小。与几代前的产品相比,至强D处理器的VM开销显著降低。

至强D处理器还采用了基于查询的侦测方法,以避免逐出不合理的高速缓存(laughable cache)中的重要高速缓存行。基于查询的侦查是一项出色的技术,当我们准备逐出一行时,我们需要查看哪些内核存放了该行的向量。当我们创建一个内核时,可能会想它是不是刚好是重要的高速缓存行,使用其他的行是否更好。所以,我们能够正确选择要逐出的行,而并非逐出一行后立刻发现内核非常需要它,然后又不得不将其从内存拖回。通过改进高速缓存运行的行为,减少了等待内存的停顿次数,使其能够在使用过程中将其从高速缓存中取出。

性能再一次提升

至强D处理器在浮点运算方面做出了许多改进。通过将许多除法器运算的带宽提高两倍,另外,插件端点乘法器中采用的矢量乘法器由5个周期减少为3个。浮点运算周期在Broadwell中是3个周期,在Haswell中也是,浮点积和FMA仍然是5个周期。转换缓冲器同样得到了改进,Broadwell现在可在原生阵列中支持16个转换缓冲器条目,同时,标准转换缓冲器队列的大小从1KB提高到1.5KB。通过在处理器中同时部署更多可用转换处理器来减少转换缓冲器错误次数,便能够对一般指令流做出改进。假如出现了未命中情况,那么我们便需要刷新页面以添加更多转换条目,而基于Broadwell的至强D处理器现在引进了第二个页面刷新工具,所以我们无需再按顺序处理页面未命中情况,因为每个内核可以独立处理两个并发页面刷新线程。即便由于转换缓冲器未能即时加载而导致出现未命中,它也能够使用户立即加载指令。此外,处理器内的各种指令也进行了一些改进,ADC指令集将其微操作 (microop)流从2个减少为1个,将性能有效提升2倍。多种应用中常用的CMOV指令减少为单个微操作。加密和高速缓存算法中常用的PCLMULQDQ(参见CLMUL指令集)从2个微操作(7个周期)减少为1个微操作(5个周期),这显著提升了直接加密的软件性能。此外,VCVTPSPS2PH的延迟还降低了25%。过去,英特尔对每个内核部署重要的微架构变更,即Tock,并且尝试在部署重大微架构改进时将性能提升10%-15%。在Tick期间,他们通常会将重点放在技术迁移,仅通过向新和出色的技术迁移,便可获得大量性能优势。对于新的Broadwell,英特尔比其他前几代的一些产品做得更好,提高了5%多一点(不考虑多核、频率或其他影响,只考虑内核本身及其执行指令流所需的时间和周期数量)。

Broadwell为提升浮点运算能力所进行的架构改进和指令集变化
Broadwell为提升浮点运算能力所进行的架构改进和指令集变化

Broadwell与前几代架构缓冲器参数对比
Broadwell与前几代架构缓冲器参数对比

基于众多的技术改进,至强D处理器的内存带宽比Avoton凌动C2000提升78%。如果使用DDR4 2133内存组,理论性能提升幅度可以再提升32%。此外,至强D处理器的内核性能相比Avoton提升2.6倍,Memcached的性能提高2倍,Java的性能提高3.15倍,动态web服务的性能提高3.4倍。在存储方面,大型数据流即流媒体或大型的数据块的处理能力提升34%,小数据块的处理能力则提升2倍。网络方面,大型数据包的转发能力相比Avoton提升2倍,小型数据包的转发性能也提升了3倍。不仅如此,对于用户敏感的能耗表现,至强D处理器的能耗和性能比将比凌动C系列处理器提升1.7倍(该数字将取决于客户的部署)。至强D与至强E5进行比较将如何呢?至强E5产品能够提供出色的性能,如果对比至强E5产品家族和至强D产品家族的高端型号,在堆栈的底部,至强E5拥有6个内核,采用双插槽配置,其性能与至强D相仿。但是,至强E5可以带来更高的可扩展性,支持用户在至强E5上扩展内存和I/O,这是它优于至强D平台的地方。

分享到:

用户评论

用户名:

密码: