今天的分享,从我们『春运抢票』的『国民回忆』开始。
一
“在那些被『12306』支配的日子,我们仿佛身处『半互联网半原始社会』。”
相信多数人对中国铁路官方购票网站『12306』的记忆,都有对它的疯狂吐槽。除了吐槽那些奇葩的『找不同』验证码,还吐槽糟糕至极的网上购票体验。
12306网站被印度码农吐槽『他们可能用了一台old server』(滑到0分54秒处看吐槽)
那些年每逢『春运』,『抢票』都是一场大乱斗。而那些被『12306』支配的日子,仿佛身处『半互联网半原始社会』。
不知不觉间,吐槽12306成为了历史,如今我们已经可以非常顺滑地使用手机购买火车票——甚至大家都没发觉,情况是从什么时候发生变化的?
这要从阿里云为12306『分流』说起。
在2015年之前,12306平台面对春运期间蜂拥而至的巨大流量疲于应付。由于『平时』和『春运』网络购票的流量峰谷差巨大,铁路部门堆服务器的方案既不经济,又不灵活。
网友2014年吐槽12306
2015年,经过阿里云、铁路相关部门的深度沟通,12306的车票查询业务放到了阿里云计算平台上——注意,『车票查询业务』是影响『抢票』的关键因素。因为当我们在平台『刷票』而不得时,很大部分原因不是因为票被买走了,而是『被查询到』或『被选择』了。
换言之,天量的火车票查询是影响12306性能的重要原因之一,这个并发业务大概占了90%以上的访问流量。
回看当初,要在成本和并发能力之间做一个好的平衡,解决当时『人民群众迫切的购买回家车票与购票系统无法快速高效响应之间的主要矛盾』,12306关键业务上云,简直是唯一选择。
历史也恰是如此,在2015年,阿里云已经有能力,为12306升级弹性计算服务实例(即阿里云ECS2.0)。
张献涛是阿里巴巴弹性计算负责人。他回忆说,当年为满足12306业务需求,阿里云计算产品从底层技术架构全面升级:网络、存储、计算,提高整机性能。
从阿里云来看,他们通过云的『弹性』和『按量付费』的计量方式,来支持巨量的查询业务;而从12306来看,他们恰好把架构中比较『笨重』(高消耗、低周转)的系统迁移到云计算上。
这是在系统架构上做『轻重分离』的一个经典案例,也是一个充分利用云计算弹性的绝好实例。
阿里云一战成名,云计算开始风靡。
二
“是什么让阿里云服务器性能以『超摩尔定律』的效率变革?”
如今,阿里云计算的能力,还在进化。
7月15日,阿里云推出第三代『神龙云服务器』。它源自一个带有神奇色彩的服务器产品家族——基于自研软硬一体的『神龙架构』,神龙云服务器代表着云计算领域的顶级算力。
最多208核、最大6TB内存,云盘IOPS高达100万、网络转发高达2400万、网络带宽高达100G……毕竟是要支撑『天猫淘宝双11』业务的服务器,第三代神龙服务器创下了云服务器的最高性能水平。
张献涛展示第三代神龙云服务器核心组件
不仅如此,基于最新款第三代神龙云服务器的阿里云第六代增强型实例,全系搭配ESSD系列云盘(ESSD是阿里云性能最强的企业级块存储,单盘IOPS高达100万,推出于2018年初),存储转发能力最多提升4倍;支持10Gbps突发内网带宽,单卷延时大幅下降;性能等级按需配置,在线无损变配;同时ESSD使用门槛大幅下降50%。配合Alibaba Cloud Linux 2 LTS,启动速度最多提升60%、运行时性能最多提升30%、稳定性最多提升50%。
与上一代相比,第三代神龙云服务器的综合性能提升高达160%,比目前全球最顶级云服务器还要快30%以上,整体算力全球最强。
过去十年,阿里云的存储性能提升了2000倍,网络性能提升了500倍,整体算力以平均每12个月翻一番的速度增长——这比摩尔定律还要高效(在同等成本下每18个月计算机性能翻一番)。
是什么让阿里云服务器性能以『超摩尔定律』的效率变革发展?
张献涛给出的答案,是『软硬一体化』的协同设计带来的优势。
确切地说,第三代神龙云服务器『变强』,始于阿里云『变硬』,并进一步将自研的重心转向『软硬一体化』。
我在《从阿里云深度自研看如何搬开IT领域的“三座大山”?》《阿里云集齐上云需求,并召唤了“神龙”》等文章中,对阿里云自主研发『飞天』云操作系统、『神龙架构』等有过细致介绍,此处不再赘述。
我们好奇的是,阿里云自主研发的重心,是如何逐步找到『软硬一体化』这条光明之路,并将其确立为阿里云核心竞争力的?
答案就在阿里云日益庞杂的业务需求之中。
三
“每个热爱软件的人都应该有自己的硬件系统。”
阿里云在12306复杂业务场景下的历练,让阿里巴巴看到了云计算更广阔的应用场景。
『从2016年开始,阿里巴巴开始谋求整个集团业务「上云」,这对我们产品性能的要求就完全不一样了,传统的技术演进已经不能解决问题了。』张献涛说。
传统的技术演进『传统而主流』:芯片厂商迭代芯片,软件厂商迭代软件;软件与硬件的对接与承载,大家默认使用约定俗成的、标准化的接口。
『大家很少坐在一起共同研究和优化软件与硬件的「接口」。』张献涛说,『标准化有其好处,但它带来的是,不能充分挖掘软件、硬件深层次的能力。』
就在那时,阿里云开启了神龙架构(前身)的『秘密研发』。
00:15
去年9月,阿里云第三代神龙架构腾势而出
『每个热爱软件的人都应该有自己的硬件系统。』
这是天才的计算机大师、图灵奖得主阿伦·凯(Alan Kay)的名言,这句话用在阿里云神龙架构身上,再合适不过。
从神龙架构身上尝到甜头的阿里云,认真审视了『软硬件协同设计』的优势:它所能带来的性能提升,不再是『按部就班的』,而是可以最大化发挥软硬件的性能和潜力。
『这是我们做神龙服务器做了这些年之后,深刻体会到的东西。』张献涛说。
并且,通过软硬一体化的协同设计,服务器系统中网络、存储、计算等的性能提升,会在系统中形成『倍增效应』,从而让系统性能的提升更加『平衡』——以基于第三代神龙架构的第六代增强型ECS实例为例,它就是一个均衡增强型的『全能选手』,在通用计算场景下能带来很高的性价比。
2019年,阿里巴巴将整个『双11』核心业务完全迁移到神龙架构系统之上,其中就有一部分基于第三代神龙架构的服务器。在高流量、高负载的场景下,神龙架构表现稳定;在一些通用类业务中,系统有20%-30%的性能提升;而在一些诸如需要大内存的场景,强化内存配置的服务器,在有着同样很强IO吞吐、网络转发性能的配置下,性能优势更为凸显。
这让阿里云计算誉满江湖,用户遍天下。
从最早单一的通用计算,到推出异构计算与高性能计算产品,再到今天的一系列新品,阿里云弹性计算已覆盖互联网、金融、零售等行业近300种场景,支撑了各种流量高峰:12306的春运抢票、微博热点的暴涨流量、钉钉2小时扩容10万台云服务器等等。
『「软硬一体」和「云原生」将成为云计算技术架构的主流。』张献涛断言。
四
“使玄奘成为玄奘的不是经书,而是取经的那条路。”
『只有自主研发才能盖起「高楼大厦」。』阿里云基础产品事业部总经理蒋江伟如是说。
放眼全球,世界前三的云计算公司——亚马逊AWS、微软Azure和阿里云都是采用自主研发技术。这确保了云的整体架构是有机统一的,能够随时随地的无间断升级,并在全球范围内水平扩展。
值得一提的是,在大洋彼岸,还有一家坚定走『自主研发』+『软硬一体』这条路的科技巨头,这家公司的创始人是乔布斯。
现在,越来越多的公司也在通过软硬件一体化的设计思路改进自己的技术。它们之中,许多也是云计算厂商。
张献涛开玩笑说,能看到大家都做这样的选择很好,至少说明了我们不是 在错误的道路上越走越远。
率先将自研转向软硬一体化的阿里云,目前已经拥有了神龙计算平台、盘古存储平台、洛神网络平台以及整个飞天操作系统,阿里云也通过对这些平台技术的沉淀和提升,持续演进产品和服务,驱动云计算脚步向前发展。
正如镌在《弹性计算:永不停机的云服务》封面上的那行字一样,阿里云通过突破行业天花板,帮助用户『集计算、存储、网络于一体,每时每刻动态获取计算资源』。
这一切,源自阿里云的『拓荒』,却代表着整个云计算未来的方向。
所以,当人们问出『未来10年云计算向何处去?』的时候,阿里云似乎已经有了答案。而得到这个答案的秘诀,并不是因为阿里云对于技术的认识多么超前,而是因为——
『使唐僧成为唐僧的不是因为经书,而是取经的那条路。』
来源:本来科技
注:文章内的所有配图皆为网络转载图片,侵权即删!
我要评论