同城58网 软件 死磕算力13年,阿里云再一次破局

死磕算力13年,阿里云再一次破局

在金庸小说中,即使“屠龙”能号令天下,但唯有“倚天”能与之争锋。

阿里云也有一把自己的“倚天”——倚天710,在去年的云栖大会上正式出鞘亮相,惊艳众人。

没想到,仅过去短短1年时间,倚天710已实现大规模应用,再一次在业内掀起巨大的波澜。

倚天出鞘一年,再迎新突破

11月3日,在2022 云栖大会上,阿里正式宣布,倚天710已成功大规模部署应用,成为中国首个云上大规模应用的自研CPU。这标志着,阿里布局多年的“算力攻坚战”再下一城。

倚天710,是一款通用服务器CPU,负责接收、运算和处理计算机内部所有信息,需要应对不同的应用场景,比如计算密集型、大容量存储等,可以说是设计难度最高的芯片之一。

而平头哥费这么大劲搞出这个芯片,主要是想解决性能功耗等一系列问题,为云上企业提供性价比更高的服务,这些都是让他们颇为头疼的问题。

比如说,功耗。

对于庞大的云服务器而言,电费是日常运营成本的大头,而决定电费的关键因素,又在于服务器运行的功耗。

倚天710,正是以低功耗为特点的ARM构架。为了实现性能与功耗兼得的目标,其特意在设计上也采用了多核互联网、芯片间互联等低功耗技术。

具体到应用场景中,无论是在数据库、大数据、视频编解码,还是AI 推理,倚天710的性价比提升30%以上,单位算力功耗(耗电量)降低60%以上。

这些实例,既有阿里内部的,也有外部客户的。

在阿里集团内部,倚天710从去年就开始支持最核心的电商业务。在2021年双11期间,天猫双11核心交易系统就平滑迁移至倚天710实例。

外部客户就更多了,有研究机构、智能手机企业,还有知名互联网公司。主打数据智能SaaS 工具生态的汇量科技就表示,在广告推理中使用倚天 710 实例后,不仅有效提升了CPU 处理能力和网络带宽,成本对比传统实例也降低15-20%,综合性价比提升 40% 以上。

阿里云智能总裁张建锋在大会上提出,未来,阿里云还将继续扩大自研CPU的部署规模,预计未来两年内20%新增算力,将使用自研CPU芯片倚天710。

今年,阿里云还发布了一款云基础设施处理器CIPU,替代CPU来管理和加速计算、存储和网络资源。

这是一种全新的架构方式,代表着云计算深入到数据中心内部做体系化创新。

CIPU实现了全面专用硬件加速的高性能,包括高带宽、高吞吐和弹性RDMA的能力。

“飞天+CIPU”的组合性能表现普遍优于业内同类产品,性能可提升20%以上。

张建锋认为,过去十多年,飞天为阿里云打下了扎实的技术基础,让云实现了第一次飞跃。自研CPU芯片倚天710、下一代云计算体系架构CIPU,将为阿里云构建第二技术曲线,是云面向下一代技术构建的核心竞争力。

阿里的算力攻坚三板斧

阿里的这场算力攻坚战,源于互联网红利爆发前夜,业务规模激增与陈旧的算力基础,完全割裂。

2008年,淘宝流量指数级扩张,原本通过线下自建或租用服务器的方式,已经难以承受互联网业务规模激增带来的算力问题。想要接轨更广阔的市场,提升算力是基础。

于是,阿里开始寻求新的路子,想基于云计算搭建全新技术架构,打破" 扩大采购规模 " 的线性局限。

2009年,阿里巴巴启动飞天云操作系统的研发,并成立阿里云,开始了中国企业自研云计算的道路。

" 飞天 " 的核心目标之一,就是要用分布式架构替换中心化架构,可以让全世界服务器实现连接,不仅能快速应对突增的流量,还能让计算资源真正像水电一样,即需即用。

然而,分布式系统非常复杂,一旦接入的服务器数量升至一定数量,系统性能、稳定性和运维等方面带来的技术挑战,那是指数级上升。

2013年5月,阿里云完成新一轮突破,成为全球首个实现单一集群5000台服务器规模的云厂商;数月后,规模翻了一番,突破单集群10000台的规模。

这时候,硬件上的难题又来了。无论云厂商们如何优化,始终无法全然发挥硬件性能,虚拟化导致的性能耗损难以解决,只能眼睁睁看着算力白白流失。

这时候,阿里云又开始琢磨着如何打造一个专用硬件,负责芯片不擅长的虚拟化调度工作。于是,兼具虚拟机弹性和物理机高性能的神龙架构又诞生了,让云计算进入性能0损耗的时代。

漫长的算力攻坚路途,没有终点。

作为服务器、数据中心的 " 拼图",芯片的问题又来了。芯片制造商所产出的服务器芯片,并不能很好地与云厂商各自的技术架构相融,只能满足最基础的算力要求,很难提高特定业务及场景的性能。

达摩院、平头哥,顺势而生。

在2019年云栖大会上,成立仅仅一年的平头哥,发布阿里第一颗芯片含光 800。

2年后,还是在云栖大会上,倚天710正式亮相,震动业内,性能跑分领先,能效比更是领跑全行业,现在又以迅雷不及掩耳之势,实现了大规模应用。

如今,达摩院做基础研究,为技术的发展源源不断的提供科研成果、输送人才;平头哥利用阿里强大的研发能力和资源,支撑通用芯片这种高尖科技的持续研发;阿里云则为这些产品提供了广阔的应用场景。

三驾齐驱,阿里云正在往“阿里云+平头哥+达摩院”的核心技术栈方向发展。

让软件开发不再是程序员的专利

云计算架构发生翻天覆地的变化,必然会带动软件体系的改变。

在今年的云栖大会上,张建锋还提到,以云为核心的新型计算体系正在形成,软件研发范式正在发生新的变革,Serverless是其中最重要的趋势之一。

Serverless,翻译过来就是,无服务器运算。

不过,Serverless化并非不用服务器,只是将服务器全权托管给了云厂商,用云服务器替代物理服务器。

Serverless架构,能降低软件开发门槛,提供更多的预制模块,大幅提高软件生产效率,这将带来软件开发方式的深刻变化。

最早试水Serverless的新零售代表,联华华商技术负责人楼杰表示,“以前搞大促我们技术团队都睡不着觉,要时刻盯着服务器水位,心里都没谱。”

现在,“我们不用管理服务器这些基础设施,只要编写代码上传,函数计算就会准备好计算资源,水位远远高于我们储备能力的极限。”

世纪联华将会员系统、交易系统、支付系统等,迁移到阿里云函数计算上处理后,促销准备时间从周级缩短到小时级,研发运维提效30%,成本下降40%,真正把促销活动变成常态。

而流媒体平台南瓜电影,曾因为一场热映电影1小时内增加了100万用户,是当时日常流量的5倍以上,就如国庆高速大堵车一般,流量暴涨引发网站服务一度中断,临时云上扩容也无法及时满足巨大的流量。

了解到Serverless的优势后,南瓜电影也将系统部署到阿里云Serverless应用引擎SAE上,7天时间就完成了新架构的升级和部署,总成本下降40%,运维效率提升10倍,从容应对突发流量。

低代码将进一步降低应用开发门槛,张建锋认为,未来80%的应用将由业务人员开发,不懂低代码就和20年前不会用Word一样。

目前,阿里云拥有超过20款 Serverless产品,包括函数计算FC、Serverless 应用引擎SAE、Serverless容器服务ASK、PolarDB数据库、AnalyticDB数仓等。

其中,函数计算日调用次数超过200亿次,有效支撑历年双11百万QPS洪峰,业务年均增速超300%,整体规模位居国内首位。

阿里云的技术雄心

攻坚算力十数年,阿里云披荆斩棘,闪电般拿下一座又一座城池,早已通过在云基础设施和云原生技术上的积累,变成一片赋能创新的肥沃土壤。

如今“云、摩、头”组合三位一体,技术融合打通之后的一系列成果,也是其厚积薄发之后的结果。

向下扎根,做深基础,向上生长,赋能应用,阿里云已经抓住了未来十年的发展脉络。

•END•

本文来自网络,不代表本站立场,转载请注明出处:https://www.tcw58.com/n/a2416.html

阿里云,架构,技术,芯片,问题,服务器,飞天,性能,规模,应用,张建锋,阿里云,服务器,算力,阿里

同城58网后续将为您提供丰富、全面的关于阿里云,架构,技术,芯片,问题,服务器,飞天,性能,规模,应用,张建锋,阿里云,服务器,算力,阿里内容,让您第一时间了解到关于阿里云,架构,技术,芯片,问题,服务器,飞天,性能,规模,应用,张建锋,阿里云,服务器,算力,阿里的热门信息。小编将持续从百度新闻、搜狗百科、微博热搜、知乎热门问答以及部分合作站点渠道收集和补充完善信息。