面向大模型训练，腾讯发布超强算力集群，性能提升三倍！-同城58网网

就在刚刚，腾讯发布了号称国内性能最强的大模型计算集群。

据腾讯微信公众号4月14日消息，腾讯云正式发布面向大模型训练的新一代HCC（High-Performance Computing Cluster）高性能计算集群。

该集群采用腾讯云星星海自研服务器，搭载英伟达最新代次H800 GPU，服务器之间采用业界最高的3.2T超高互联带宽，为大模型训练、自动驾驶、科学计算等提供高性能、高带宽和低延迟的集群算力。

据腾讯介绍，实测显示，新一代集群整体性能比过去提升了3倍，是国内性能最强的大模型计算集群。

早在去年10月，腾讯训练框架AngelPTM，完成了首个万亿参数大模型训练——混元NLP大模型训练。在同等数据集下，将训练时间由 50 天缩短到 11 天。如果基于新一代集群，训练时间将进一步缩短至 4 天。

针对大模型场景，星星海自研服务器采用 6U 超高密度设计，相较行业可支持的上架密度提高 30%；利用并行计算理念，通过 CPU 和 GPU 节点的一体化设计，将单点算力性能提升至更高。

除此以外，H800 GPU也是新集群的一大看点。公开资料显示，H800为英伟达旗下最先进的芯片之一，对人工智能研发极为重要，其算力超过旗舰芯片A100三倍，这也是国内首次发布搭载H800的大模型产品。

网络层面，腾讯发布自研的星脉网络能提供3.2T通信带宽，为业内最高数据。

腾讯表示，搭载同样的GPU卡，3.2T星脉网络相较前代网络，能让集群整体算力提升20%，使得超大算力集群仍然能保持通信开销比和吞吐性能。并提供单集群高达十万卡级别的组网规模，支持更大规模的大模型训练及推理。

存储层面，几千台计算节点同时读取一批数据集，需要尽可能缩短加载时长。腾讯云自研的文件存储、对象存储架构，具备TB级吞吐能力和千万级IOPS，满足大模型训练的大数据量存储要求。

新一代集群还集成了腾讯云自研的 TACO 训练加速引擎，对网络协议、通信策略、AI 框架、模型编译进行大量系统级优化，大幅节约训练调优和算力成本。

另外，腾讯自研芯片已经量产，包括用于AI推理的紫霄芯片。它采用自研存算架构和自研加速模块，可以提供高达3倍的计算加速性能和超过45%的整体成本节省。

在上月召开的电话会议上，腾讯方面表示，未来将投入大量资源并建立自己的基础模型，并将其整合进公司的所有业务中。不过腾讯表示，将做对的事，不会仓促行事。

腾讯还说，AIGC可以用来提升腾讯旗下旗舰产品的用户体验。未来可能每一个用户都会有人工智能助理，如果效果好，有可能将生成式AI纳入微信和QQ。