同城58网 软件 强大无须多言——第四代AMD EPYC处理器先进技术指南

强大无须多言——第四代AMD EPYC处理器先进技术指南

近年来,在服务器和数据中心等企业级市场,AMD凭借持续更新的“Zen”架构,其EPYC(霄龙)系列处理器的市场占有率上升势头非常迅猛。2022年11月,AMD推出全新第四代EPYC处理器。新处理器将单插槽处理器核心数量提升到最多96核,并且采用了最新的“Zen 4”架构,带来大量全新特性。接下来,本文就对第四代EPYC处理器进行详细解读。

此前,AMD采用EPYC 7000系列作为原始命名。最后一位数代表不同代次,比如EPYC 7001、EPYC 7002和EPYC 7003就分别代表三代不同的产品,其中又包含大量细分型号。在第四代EPYC处理器上,AMD改用了EPYC 9004作为产品基础代号,这可能是考虑到本代产品具备极为显著的性能提升。同时,在大多数人的概念中,“9”相比“7”显得定位更高、性能更强。第二位数字代表处理器核心数量,其基本对应关系如下表:

AMD本次发布了18款EPYC 9004系列处理器,分为3个大类,分别是追求核心密度的产品、追求平衡和优化的性能的产品以及追求核心性能的产品,具体规格见下表。

设计目标:拥有扩展和计算性能的优势地位

按照惯例,我们先来看看EPYC 9004的设计理念和实现情况。AMD EPYC 9004的设计理念就是继续保持计算性能和扩展能力的优势地位。AMD分四个方面进行了阐述:首先是拥有最先进的单核心性能和单插槽性能,这依靠最新的Zen 4架构和5nm工艺实现;其次是配备超大的内存带宽和容量,这依靠12通道的DDR5内存来实现;第三是采用全新的下一代IO接口,这包括最大160通道的PCIe 5.0控制器以及可以利用CXL协议扩展的内存寻址功能等;第四则是加密计算方面的新进展,主要通过CXL以及2倍的SEV-SNP功能来实现。

为了达到这些设计要求,EPYC 9004在结构上依旧采用了Chiplet设计,布局在中间的是全新设计的IO芯片,周围的CCD单元数量增加到12个。每个CCD中依旧包含了8个CPU核心和相应的缓存,以及32MB L3缓存。EPYC 9004核心数量大增的原因是CCD数量从上代产品的最多8个增加到了最多12个,这使得它最多能提供96核心192线程。

前端方面,分支预测部分有大幅加强。AMD使用了一个更强有力的分支预测单元,每周期可以执行2次分支预测。此外,L1分支目标缓冲区的容量提升了50%,达到1.5K条目,L2分支目标缓冲区则达到7K。Zen 4还拥有更大的Op缓存、更大的指令回写队列,它们在很大程度上提升了处理器的前端性能。

在指令集方面,Zen 4实现了对AVX-512指令集的支持。Zen 4采用了2个AVX 256来合并执行1个AVX-512,而英特尔采用了独立的AVX512 SIMD核心。AMD的设计可以节省晶体管资源,并且不需要降低频率来运行AVX-512。但是当同时执行AVX2和AVX-512的时候,则必须完成一个后再执行另一个。AVX-512比之前Zen架构多核心执行FP32的工作效能提升了30%。此外,Zen 4也实现了对BF16数据格式的支持,这是AI计算中新兴的一种重要数据格式。

根据AMD官方数据显示,在支持AVX-512后,使用2路EPYC 9654(192核心)对比2路EPYC 7763(128核心),在NLP、图像识别以及物体检测的吞吐量测试中,前者的领先幅度分别达到4.2倍、3倍和3.5倍。

最后再来看看安全方面的内容。Zen 4架构目前支持安全加密的虚拟化,包括SEV-ES、SEV-SNP,内存加密支持AES-256-XTS,支持最多1006个加密的客户机以及多主机秘钥SMKE。此外,它还支持虚拟化X2APIC、免SMT攻击和额外的SPEC_CTL功能等。

举例来说,上代EPYC 7763拥有64个核心128线程,支持8通道DDR4内存,内存总带宽为204.8GB/s,平均每核心3.2GB/s。新一代的EPYC 9654拥有96核心192线程,支持12通道DDR5内存,内存总带宽为460.8GB/s,平均每核心4.8GB/s。EPYC 9654在处理器核心数量更多的情况下,每核心内存带宽提升了50%。如果是48核心或者32核心产品,每核心内存带宽的提升会更大,这为内存带宽敏感型应用带来了极为不错的性能提升空间。

IO芯片和总线连接系统:采用最新的GMI3连接

值得一提的是,IO芯片上的GMI3端口排序是经过设计的。它的端口序号排列如下:

AMD还特别对连接模式进行了说明。GMI3有两种连接模式,一种被称为窄连接模式,主要用在大于4个CCD也就是32核心以上的处理器上;另一种被称为宽连接模式,它是新加入的,主要用在小于等于4个CCD,也就是32核心以下的产品。

双CPU互联:最多对外提供160条PCIe 5.0总线

每个EPYC 9004处理器能够对外提供128条PCIe 5.0通道。当组建2P系统时,通过IF总线使用的SerDes(串行器-解串器,AMD的SerDes支持两种类型的连接,一种类型是支持标准的GMI或者PCIe接口、Infinity Fabric总线等,另一种则是支持其他类型的接口,包括SATA、CXL等,用户可以根据需要进行配置),最多有64条通道被设置为4条Infinity Fabric总线(后文简称IF总线)来实现2个CPU的互联传输。也就是说,在AMD的定义中每一条IF总线实际上相当于PCIe 5.0 x16的规格。

CXL 1.1+:提供超大规模的内存寻址空间

CXL支持三类设备,第一种常用于网卡这类高速缓存设备,第二种常见于GPU、AI等应用的内存加速器,第三种是内存扩展控制器,通常作为内存缓冲器,常用作内存带宽或是容量的扩展。EPYC 9004目前只支持第三种方案,允许用户将远程内存作为本地内存进行寻址,并且允许将多个CLX Type-C设备聚合成一个交错的NUMA节点,还支持“headless NUMA”节点。其他功能包括能够优化本地内存和CXL内存之间延迟差异的QoS机制,支持AMD的SEV-SNP密钥扩展和AES-256-XTS等功能。

在架构介绍部分,AMD提及了不少性能方面的信息,不过最终还得看综合性能情况。AMD选择了英特尔第三代至强可扩展处理器,也就是Ice Lake-X架构的产品进行对比。

首先来看单核心性能。AMD使用了16、32、40/48核心的处理器进行对比。EPYC 9004系列的不同型号处理器在整数、浮点性能方面超越英特尔产品最多可达55%、96%。虚拟化性能方面,EPYC 7003的表现就足以抗衡英特尔产品,EPYC 9004的性能更是英特尔产品的2.8倍之多。在FSI模拟、3D渲染和商务(MySQL业务查询)方面,EPYC 9654的性能分别是英特尔至强铂金8380的大约2.1倍、2.4倍和2.7倍。HPC性能方面就更不用多说了,2P配置的EPYC 9654在天气预报、计算流体和有限元分析方面分别是2P配置的英特尔至强铂金8380的大约2.5倍、2.5倍和2.6倍。HPC单核心性能方面,同样是这三项测试,32核心的EPYC 9374F性能是同为32核心的至强铂金8362的2倍、1.7倍和1.7倍。

在同样性能的情况下,比如在SPECreat 2017整数基准测试中同样获得8500分,AMD只需要1P EPYC 9654的处理器使用10台服务器即可,英特尔则需要2P的至强铂金8380的处理器使用15台服务器,这意味着AMD节约了67%的处理器数量、20%的核心数量、50%的能源消耗和46%的1年服务TCO。

从已知的信息和规格来看,EPYC 9004系列处理器代表了当前最先进、最强大的计算性能,无论是架构设计还是产品性能都没有什么可挑剔的地方。

AMD还给出了EPYC未来的产品路线图。目前AMD发布的EPYC 9004系列是代号为“Genoa”的产品。接下来,AMD还将陆续推出采用3D V-Cache技术的“Genoa-X”,面向云计算服务的“Bergamo”(贝尔加莫),以及面向电信基础设施和边缘计算的“Siena”(锡耶纳)。在2023年~2024年,AMD将推出全新设计的Zen 5架构以及第五代EPYC处理器家族,代号“Turin”(图灵)。AMD在前三代EPYC大获成功之后,已经开始计划利用EPYC进入更多市场,继续和英特尔等厂商展开正面厮杀。这样的竞争态势,显示出AMD强大的进取心。就像全新进化的AMD新品牌平台 “同超越,共成就 _”(“together we advance_”),持续进步的AMD还会带给我们怎样的惊喜呢?一起期待吧!

本文来自网络,不代表本站立场,转载请注明出处:https://www.tcw58.com/n/a16598.html

Zen,架构,设计,产品,技术,系列,核心,处理器,性能,第四代,测评盘点,Zen,总线,内存,处理器,性能

同城58网后续将为您提供丰富、全面的关于Zen,架构,设计,产品,技术,系列,核心,处理器,性能,第四代,测评盘点,Zen,总线,内存,处理器,性能内容,让您第一时间了解到关于Zen,架构,设计,产品,技术,系列,核心,处理器,性能,第四代,测评盘点,Zen,总线,内存,处理器,性能的热门信息。小编将持续从百度新闻、搜狗百科、微博热搜、知乎热门问答以及部分合作站点渠道收集和补充完善信息。