随着服务器市场的产业格局在发生变化,服务器厂商正在改变以出货量为目标的增长方式。低端服务器市场正在日趋饱和,而以四路及以上中高端服务器市场正在成为厂商的焦点。那么在中高端服务器市场上x86平台和RISC架构是怎么样的呢?在目前的大趋势下各个企业又是如何选择的呢?
2015年,“互联网+”已上升为中国的国家战略,在“互联网+”大战略的背景下,各行各业无论对于业务还是应用都会提出转型的需求。于是,支撑业务的IT架构本身也面临着转型的需求。“互联网+”是传统行业和互联网技术的融合,它可以改变客户本身的消费习惯,比如原来必须是在传统实体中消费的场景,现在可以通过网上、手机上来实现,可以提供更高的效率、更低的成本。要面对这样的转型,对企业IT基础设施来说,需要更加灵活、高效、低成本,同时能够保证7×24小时在线这样的高可靠性。
我们知道,x86架构在服务器市场的很多领域已经占据了绝对的优势,不过RISC架构此前往往把持着核心的关键应用领域,比如银行、金融、电信等行业的核心业务。如果业务本身不发生变化,出于保护投资、不冒风险的角度,也许RISC架构被替换的可能性仍旧不会很大。但是,正如前面提到的,中国已经进入了“互联网+”的时代,就算是银行、金融、电信这样的重要行业,也面临着业务形态迅速变化的现实。于是,这给x86架构进入关键业务领域带来了一个很好的契机。今年春天,英特尔已经发布了至强E7 v3系列处理器,它的很多特性就是针对关键业务领域而设计。那么,半年过去了,究竟x86平台是否在关键应用领域获得了认同,究竟哪些应用更适合它呢?在刚刚结束的“华为关键业务开放平台应用方案分享会暨英特尔行业关键应用全国路演”活动上,笔者看到的一些真实的案例和数据,对这方面的变化有了一个初步的了解。
关键应用的基本要求是什么?
为什么说x86架构在“互联网+”时代更有机会去切入RISC架构把持的关键业务领域呢?首先来看这个领域需要重点满足的几个技术性的要求。第一个当然是稳定性,就是常说的所谓“几个9”的问题,即一年之内平均计划外宕机的时间。就这一点来说,x86平台的至强E7 v3已经达到了“5个9”的水平,会上英特尔给出的数据是99.9978%,已经十分接近RISC架构的POWER平台。其次是安全性,这方面,很多原本安腾系统里的RAS安全特性加入至强E7 v3之中,无论是校验能力还是内存出错时的预警、修复能力,现在都已经不是问题。第三个是计算性能。这当然不会是瓶颈,至强E7系列原本就是适合纵向扩展的性能提升型产品,单颗CPU的大内核数量就达到了18个,华为已经可以做到8路系统,高可以支持12TB的内存,还支持事物同步扩展技术,擅长内存计算,比如华为生产的SAP HANA内存计算平台就是用至强E7 v3来做的。然后值得一提的是开放性。开放性其实意味着客户有众多选择,而不是锁定在一两家解决方案平台之上。足够的可替代性才能有效地降低成本。我们知道,没有竞争,就会带来暴利。以前RISC架构几乎都是封闭的,竞争可能只在第一次,选了以后基本就都得一直用,要想迁移,用户得先想想迁移付出的成本和代价能不能承受。至于后期维护,那更是旁人插手不得,TCO成本相当昂贵。所以,从基本需求的角度,x86平台已经完全能够满足用户需求,并且在不少特性上已经实现了对RISC的超越。
弹性和可扩展性可能是“互联网+”环境下需要的关键因素。比如,在这些年“双十一”带来的购物旺季里,如果基础架构满足不了这么大的客户访问量,就会对企业、业务造成很大的影响。先受到影响的是网站,所以阿里巴巴早提出“去IOE”,改用x86架构的弹性扩展能力来服务新兴的移动互联网应用。同时受到挑战的还有银行,很显然,对于以往只需要应对柜台、POS机需求并作出反应的系统来说,要应对“双十一”这种级别的峰值访问几乎不可能。这些应用的倒逼,推动着银行去采用基于x86架构、弹性可扩展的平台,从而获得更好的响应速度,来满足交易的峰值负载性能,同时保证7×24小时的在线时间。正因为如此,x86架构在关键应用领域的突破口其实并不在传统的核心业务上,“互联网+”带来的全新应用模式才是x86架构迅速开花结果的沃土。
英特尔在会上展示了一个真实案例:天津人力资源和社会保障局就曾经把一个机构的核心数据库从基于POWER的RISC系统迁移到基于至强x86平台上。这是因为旧的RISC系统存在一个问题,每年年初的时候不仅是企业客户,还有个人要做网上申报,这时候会有一个交易量负载的爆发式增长,而此前采用的RISC架构小型机已经不能满足需求,经常会有客户登录不了,或者响应特别慢的问题。另外,其运维成本也非常高,新的互联网业务也无法在旧系统中完成。而华为则采用了一个新的架构,用至强的2路、4路和8路服务器做前端,实现了对于热点的应用解决方案利用到的GemFire内存数据库技术,让性能提升100倍,解决了网上申报高峰期的用户需求响应问题。另外,通过至强系统+VMWare的解决方案,其系统的可靠性、可用性也大大增加,重要一点,新的架构可以支持新增的互联网应用。
华为展示的另一个案例是某银行,它拥有4000万的客户,但按照以前传统通过柜台的办理方式,平均每一秒可能只有10个并发业务要处理,整个业务的IOPS也只需要21次。但到了“互联网+”时代,基本的手机银行就改变了这一切。它的手机银行客户数还略低于柜台用户数,只有3600万,但平均每秒并发率从10次上升到1200次,IOPS更是达到了今年的10万次。在这样的情况下,不可能仍然基于原本的RISC架构小型机来应对用户需求,甚至不可能用升级的方式来满足,选择x86平台是更适合的选择。
中石化旗下的石化盈科则带来了数据库方面的案例。中石化数据仓库的数据量大概是60TB左右,整个数据仓库应用需要服务大概19000左右的用户,所以这种超大体量的数据仓库平台在使用IBM小型机时在性能上还是有一些瓶颈。因为中石化是一个超大型的企业,从上游的油田到炼油、化工,到后的销售,整个全产业链经营管理数据全在这个平台上,所以根据SAP的全球评估,即使这套系统的数据总量在全球不算高的,但是数据处理量和数据处理链的步骤,包括计入数据模型数量和需要处理的环节,应该在全球都是处于高峰的状态。如何利用新的HANA技术实现结构化数据的大数据处理,来解决目前遇到的这些瓶颈呢?迁移前中石化采用的是当时高端的IBM P595小型机,迁移之后用的是华为的一体机,上端是四台应用服务器,根据利旧的原则,用的还是小型机。迁移完成之后,当时是全球大的HANA集群,也是全球第一个采用2T节点的集群。迁移完成之后,从同期的性能对比来看,整体性能提升了大约3~5倍,但更重要的是,原先一分钟以内完成的处理量,从以前只有20%一下提升到90%。也就是说,以前大部分情况下是1分钟跑不完的量,但是在迁移完以后,90%的量1分钟之内是可以跑完的,这是非常大的提升。3分钟以上的处理量,从10月份之前的25%大幅降低到1%左右,传统的处理环节大大缩短了,效率大大提高。
后是农业银行。农业银行的信贷系统采用的是全国数据集中的模式,是信贷机构全品种、全流程的网上作业。如果你是农业银行的客户,不管你是在网上和手机上面,还是在网点,你要去申请贷款业务,都会访问到这个系统。这套系统之前用了两台64路的Power 595小型机,后来替代方案是由原来单个集中式架构变成了分布式架构,由4台关键业务服务器—华为的5885 V3,4路Xeon E7 CPU,32个核,256GB内存,组建了数据库集群。迁移以后,基本上交易量3000万,峰值是3500万,其tps在高峰的时候达到1500。信贷业务跟网上银行业务不一样,网银的业务达到7000、8000tps也很正常,但是网银业务的交易逻辑比较简单,而信贷业务的交易逻辑非常复杂,因为要做很多风险控制、判断分析,所以1500tps跟一般简单业务的tps不是一个概念。这3000万的业务在每天峰值时使用率是四台服务器上不超过15%,而原来在Power小型机系统上是80%~90%,甚至100%。更重要的是,这个系统在去年8月份上线应用到今年8月份已经运行了整整一年,没有发生异常问题,原来存在的交易堵塞、响应缓慢等问题都得到了很好的解决。
对于这些拥有关键业务的企业来说,以前可能因为稳定性、安全性的问题被迫选择某些昂贵的解决方案,并被绑架昂贵的售后服务。现在,在安全性和稳定性不再是问题,x86平台又能够解决互联网新业务的高IOPS需求的情况下,逐渐有企业开始在新业务上尝试x86平台的新选择,并且看上去效果都不错。那么,是不是x86平台会像其他领域一样,迅速席卷在整个关键应用市场呢?其实也不会。毕竟,对于传统关键业务来说,企业的先期投资仍然在发挥着作用,在设备仍在正常使用,传统关键业务仍在运转的情况下,如果数据迁移的成本大于产生的收益,相信企业仍旧不会过于激进。面对这样的现实情况,x86平台的解决方案提供商提出了更加灵活的方式,比如,华为就提出了超融合概念,其Fusion系列产品可以实现将传统小型机和x86系统相融合的方式,把存储、网络等资源池化、打通,获得一种更好的共生生态。
“包括所有的服务器在内,不仅是x86架构,还包括RISC架构服务器,E7 v3平台打破了20项性能和世界纪录。特别是基于华为的8路服务器,在科学计算性能测试中获得了世界性能第一的世界纪录,是基于浮点计算的纪录。8路至强E7 v3平台和IBM POWER E870比较,有高达10倍的性价比提升,同时TCO节省了85%。”
“现在关键应用领域大的变化有两个,一是单个应用的IOPS需求变得更高了,比如微信;另一个是相关“互联网+应用”会变得越来越多。此外,我们高端服务器能干什么?第一个是RISC-to-IA,说直白一点就是小型机替代。第二个是优化数据库性能。这个优化有两种模式,一个是运行在多个机器上,但是这有一个问题,因为数据库本身的交付是非常消耗资源的,机器一多,一般高于3台之后,效率会呈非常快的下降。所以华为采用了第二种方式,通过多路的高端服务器把一个以前分布在几个机器上的数据库放在一个机器上运行,整体性能会大幅度提升。第三个是内存计算,现在SAP HANA的内存计算已经开始流行起来,因为需要这种实时数据处理的场景越来越多。以前英特尔E7的8路,只能提供6TB的内存,今天通过高端服务器,可以提供12TB,未来可以提供24TB的单节点大的HANA,可以把内存计算的性能进一步发挥到极至。”
很显然,“互联网+”环境下的用户需求已经超出了传统的IT架构所能提供的弹性和扩展性,x86平台显然在这里迅速成长的机会很大。当然,x86平台的优势不仅仅是CPU,事实上,英特尔和华为这样的生态链合作伙伴企业,正在全力解决各方面的瓶颈技术。从存储的角度讲,英特尔现在已经开始提供基于NVMe接口的高速PCI-E SSD产品,而基于3D NAND和3D Xpoint技术的产品也已经蓄势待发;再从节能降耗的角度讲,英特尔花费167亿美元收购了FPGA的第二大生产商Altra,拿到了FPGA的市场份额,为未来的整合做好准备……
巨人英特尔在企业级市场上现在非常主动。现在不但要保持在服务器CPU市场上的绝对领先地位,还利用新一代至强E7 v3全力出击“互联网+”时代下的新兴关键应用,同时不断弥补自身短板。从产品策略来看,英特尔一方面严密防范ARM架构的渗透,一方面还主动打入ARM阵营可能的优势领域,当FPGA这样产品领域可能让ARM挑战到英特尔的服务器优势时,迅速收购Altra,在FPGA领域提前站住位置。这完全就是不给ARM架构一点点机会的节奏。好在,虽然英特尔本身在市场上优势明显,但毕竟不是英特尔自己卖产品,其阵营的产品合作伙伴数量众多,特别是国内的硬件厂商,在和国际品牌竞争时已经越来越有优势,比如华为、曙光、浪潮等就在迅速崛起。x86解决方案厂商之间彼此的竞争也十分激烈,暂时还没有如当年RISC架构那样的部分品牌近乎垄断的情况出现。对于企业用户来说,这就是竞争带来的大实惠。