同城58网 软件 首届《云系统稳定安全运行优秀案例》评比,华为云斩获多项荣誉

首届《云系统稳定安全运行优秀案例》评比,华为云斩获多项荣誉

中国信通院于2022年11月启动“首届云系统稳定安全运行优秀案例征集”活动,以期激发云系统稳定性领域磅礴的创新力量,为数字化转型稳步推进奠定基础。近日,信通院首届“云系统稳定安全运行优秀案例”评选结果揭晓,华为云斩获多项案例荣誉,包括获得混沌工程实验室颁发的2022年度杰出贡献成员单位,华为云SRE确定性运维能力体系、华为云混沌工程提升云服务韧性实践、华为多活可用MAS解决方案荣获优秀实践案例,为数字化转型中的企业开展稳定可靠、安全可信、可持续发展的云服务提供最佳实践参考。

在业务量和云上客户业务类型飞速发展下,业务稳定性挑战越来越大。为了应对挑战,华为云SRE经过多年实践,总结出一套“确定性运维”体系,有效支撑了华为云业务快速增长。

确定性运维作为华为云运维质量的指导思想,通过全面的质量管理,在现网实现确定性故障率、确定性恢复时长和确定性影响范围,华为云SRE作为华为云的质量守护者,通过面向云服务全生命周期的质量看护,实现现网可预期的高可用质量结果。

亮点一:华为云SRE “确定性运维”助力客户提升应用稳定性

确定性运维的理念是通过高质量的产品开发,严谨的运维流程和制度来降低故障的概率,通过技术手段对可能发生的故障,将间隔、影响范围及故障恢复时间做到可防、可控、可治,目标是要把数字化带来的“不确定性”通过运维变成“确定性”。

华为云SRE构建确定性运维能力,将“高可用架构”、“动态清零风控”、“高度智能运维框架”形成的一个有机结合体,覆盖从产品设计、开发到部署上线,再到日常运行的生命周期全过程,华为云智能运维平台在AI加持下,更高效地服务客户。

亮点二:华为云SRE“确定性运维”能力体系和成熟度模型提升可用性

华为云SRE将“确定性运维”能力转化为云上业务运维的能力体系。华为云SRE持续开展确定性运维工作,重大事件逐年下降,确定性恢复时长持续优化,将“确定性运维”能力转化为云上业务运维的能力体系,梳理出如下适用于云上业务的“确定性运维”能力体系和成熟度模型,企业可对当前运维体系的现状进行成熟度评估,有针对性开展可用性提升工作。

亮点三:稳定可靠是华为云SRE生产力与核心竞争力

组织变革向SRE模式转型之后,关键的是构建确定性运维能力,华为云SRE确定性运维的核心理念是从正向设计的角度从系统架构层面思考如何不出问题、少出问题、出问题影响面小、快速恢复。

高可用架构的目标以及架构方案是提升可靠性,确定的失效率。提升可恢复性,确定的恢复时长,缩小故障影响范围,确定的影响范围。

确定性动态清零风控是用AI和专家能力实现风险冒泡,并及时清除。通过持续提升监控、定界与快速恢复能力达成确定性的恢复,构建PRR、ORR、混沌工程等主动运维能力;用数据智能支撑持续的自我改进。

确定性恢复能力是瞄准故障的,基于NRI进行故障模式分析,梳理出故障模式库,再针对每一个场景,参考MTTR公式分解出“发现时长”、“定界时长”和“恢复时长”,并逐项优化。

亮点四:《华为云SRE确定性运维专刊》支撑客户交流

华为云SRE针对具体运维可用性问题进行专项提升,推出《华为云SRE确定性运维专刊》,开创一个交流平台,通过方案优化、经验分享等方式,相互启发与碰撞,助力客户提升应用稳定性,构建安全稳定高可靠的“确定性”运维世界。

随着数字化转型和企业的云上业务爆发性式增长,每一次的灾难都会造成巨大经济、品牌和数据损失,越来越多的企业用户在将业务上云的同时也在考虑如何在云平台环境下保障业务的稳定性和连续性,华为云作为国内TOP级公有云厂商,承载着越来越多的企业的核心系统,而企业上云之后,仍然会面临着诸多难题如下:

华为云MAS多活高可用解决方案,是华为公司产品高质量、高可靠实践过程中经过多年锤炼和经验积累持续演进形成的组合解决方案,包括应用韧性混沌工程、CPTS全链路性能压测、MAS应用容灾多活、AOM/APM系统稳定性监控、可观测性大屏等能力,是围绕提高产品、服务和系统的韧性、可靠性数字免疫系统,保障企业上云建立信心,快速数字化转型,支撑服务稳定可靠、安全可信、可持续发展。

亮点一:中国信通院“先进级”权威认证,华为千锤百炼形成最佳实践

华为云MAS多活高可用解决方案,是华为公司产品追求高质量、高可靠过程中经过千锤百炼形成的最佳实践,包括应用韧性混沌工程、CPTS全链路性能压测、MAS应用容灾多活、AOM/APM系统稳定性监控、可观测性大屏等能力,其中多活容灾、混沌工程、全链路性能压测、拨测探活等能力已经广泛应用于华为云、终端云、流程IT云、车云等系统中,形成了端到端系统化的智力资产。

MAS多活容灾源自内部孵化以及10亿级云服务持续高可用成功经验,经过多年核心技术的沉淀逐步产品化,服务于能源、交通、直播、互联网、金融等十余个不同领域,具备业界Top成熟客户的落地实践经验和案例,关键技术领先于业界;

混沌工程是华为云服务、ICT等产品超过10年锤炼形成的包括故障演练流程和方法、可靠性评估标准以及故障模式库和武器库等核心资产,通过能力外溢对外形成产品化服务;

全链路性能压测服务CPTS经过数年积累形成了电商、一码通、秒杀、流媒体等场景模型以及8大性能压测模型,提供超过1000万规格超大并发能力,性能冲击能力领先业界;

华为云拨测探活服务通过提供核心接口分钟级监控和拨测探活一体化能力,已经成功保障华为公司200+产品和服务实现故障提前感知和告警。

华为云MAS多活高可用解决方案中的MAS应用容灾多活、应用韧性混沌工程和CPTS全链路性能压测三大核心能力2022年先后参加了中国信通院检验,分别获得了中国信通院先进级最高权威认证,说明MAS多活高可用解决方案行业内达到了领先标准。

亮点二:MAS多活高可用组合解决方案,构建完整韧性、可靠性数字免疫系统

MAS多活高可用组合解决方案聚焦应用多活提供一体化高可用解决方案:

整个组合解决方案涵盖故障注入、流量压测、拨测探活、多活容灾和全场景可视化等能力,形成了完整的高可用攻防数字免疫系统,端到端系统性提升系统高可用能力。

针对产品不同的架构形态和多活容灾诉求,MAS多活高可用组合解决方案提供专业咨询服务和专家服务,涵盖多活容灾咨询、架构诊断、高可用架构设计规范、应用开发规范、实施方案、故障演练、性能压测、厂商搬迁等能力,支撑企业快速构建多活容灾高可用能力。

亮点三:多活容灾专注业务高可用,提供秒级的RPO与分钟级RTO

通过华为云多活高可用服务,企业可以轻松实现业务级高可用保障、E2E的多级联动高可用架构、秒级的RPO与分钟级RTO、低成本的容灾演练能力,MAS提供的核心能力和优势包括:

亮点四:混沌工程是提高分布式系统稳定性的最佳实践,通过常态化故障演练,练兵“千日”,用兵“一时”,形成肌肉记忆

华为云混沌工程已经广泛应用于华为云、终端云和流程IT云200+产品和服务,通过华为云和ICT等产品持续积累和锤炼,积累了丰富的流程和方法、可靠性量化评估标准以及故障模式库和武器库等核心资产,核心能力和优势包括:

华为公司终端云、华为云、流程IT云以及ICT产品通过常态化故障演练,大幅提升产品可用性,混沌工程从Ops阶段前移至Dev阶段提前拦截系统韧性、可靠性90%以上的问题,通过月度、重大节日和突击演练支撑云服务产品现网可靠性问题连年下降,目前华为云混沌工程已经依托MAS解决方案产品化为华为云租户提供服务,提供覆盖从研发到运维全流程混沌工程能力,必将大幅持续提升云服务应用稳定性。

亮点五:开展全链路性能压测, 主动发现系统性能瓶颈

华为云CPTS服务提供低门槛、低成本的一站式云化性能测试能力,支持丰富的性能压测仿真协议、性能模型和场景模型,经过数年积累形成了电商、一码通、秒杀、流媒体等场景模型以及8大性能压测模型,提供超过1000万规格超大并发能力,性能冲击能力领先业界,核心能力和优势包括:

经过信通院的权威认证和持续探索业界最佳实践,华为云在云系统稳定性领域持续发力,为客户提供稳定可靠的运维体系和云系统稳定性保障工作。

华为云SRE和更多企业一起开展面向应用视角的稳定性提升工作,帮助企业在质量、成本、效率中寻找最优方案。华为云MAS多活高可用解决方案通过提供业界完整多活高可用组合解决方案保障更多的云服务实现业务“零中断”、数据“零丢失”、故障快速恢复和自愈等高质量、高可用目标,支撑企业云上业务持续商业成功,共同构筑业界一流的软件质量,让企业业务在华为云上创新更稳定可靠!

本文来自网络,不代表本站立场,转载请注明出处:https://www.tcw58.com/n/a38999.html

企业,能力,评比,确定性,华为,稳定性,系统,运行,业务,案例,华为,华为云,性能,故障,业务

同城58网后续将为您提供丰富、全面的关于企业,能力,评比,确定性,华为,稳定性,系统,运行,业务,案例,华为,华为云,性能,故障,业务内容,让您第一时间了解到关于企业,能力,评比,确定性,华为,稳定性,系统,运行,业务,案例,华为,华为云,性能,故障,业务的热门信息。小编将持续从百度新闻、搜狗百科、微博热搜、知乎热门问答以及部分合作站点渠道收集和补充完善信息。