<?xml version="1.0" encoding="UTF-8"?><!DOCTYPE wml PUBLIC "-//WAPFORUM//DTD WML 1.1//EN" "http://www.wapforum.org/DTD/wml_1.1.xml">
<wml>
<head> 
<meta http-equiv="Expires" content="0"/> 
<meta http-equiv="Cache-Control" content="no-cache"/> 
<meta http-equiv="Pragma" content="no-cache"/> 
</head>
<card title="华为云黄瑾：昇腾云CloudMatrix 384超节点 定义下一代AI基础设施_砍柴网">
	<p><a href="https://wap.ikanchai.com/">首页</a> &gt; <a href="https://wap.ikanchai.com/?action=category&amp;catid=5">科技快报</a> &gt; <a href="https://wap.ikanchai.com/?action=category&amp;catid=16">业界</a> &gt; </p>
	<p align="center"><big>华为云黄瑾：昇腾云CloudMatrix 384超节点 定义下一代AI基础设施</big></p>
	<p align="right">2025-05-17 15:46</p>
	<p>5月17日消息，近日，华为云AI峰会在北京召开，华为云副总裁黄瑾发表主题演讲，介绍了更多CloudMatrix 384超节点技术优势与细节。他指出，随着大模型训练和推理对算力需求的爆炸式增长，传统计算架构已难以支撑AI技术的代际跃迁，超节点架构的诞生不仅是技术的突破，更是以工程化创新开辟AI产业的新路径。华为云CloudMatrix 384超节点具备MoE亲和、以网强算、以存强算、长稳可靠、朝推夜训、即开即用六大领先技术优势，以系统架构创新重新定义新一代AI基础设施。<br />
当前，大模型训练经历了从早期小模型在单卡训练、小参数大模型在单机训练，到现在MoE、长序列、多模态大模型都在AI集群上训练的演进过程。AI算力的瓶颈，从单卡算力的瓶颈到单机内总线带宽的瓶颈，再到现在集群间通信带宽的瓶颈，需求增长了1万倍。<br />
<p align="center"><img src="https://nimg.ws.126.net/?url=http%3A%2F%2Fcms-bucket.ws.126.net%2F2025%2F0517%2F6a87f31ej00swe2ae0045c001hc00zkc.jpg&amp;thumbnail=660x2147483647&amp;quality=80&amp;type=jpg" /></p><br />
然而过去的8年里，单卡硬件的算力增长了40倍，但是节点内的总线带宽只增长了9倍，跨节点的网络带宽只增长了4倍，这使得集群网络通信成为当前大模型训练和推理的最大挑战。<br />
黄瑾表示，面对这些挑战，华为云创新性的推出了采用全对等互联架构的CloudMatrix 384超节点。这项技术创新跳出单点技术限制走向系统性、工程性的创新算力架构，直面通信效率瓶颈、内存墙制约、可靠性短板三大技术挑战。通过新型高速互联总线实现384张卡互联成为一个超级云服务器，最高提供300Pflops的算力规模，比业界同类产品领先67%。<br />
目前，基于CloudMatrix的超节点集群已经在芜湖、贵安、内蒙规模上线，黄瑾进一步深入解读了六大技术创新点：<br />
MoE亲和架构，从&ldquo;小作坊&rdquo;到&ldquo;超级工厂&rdquo;。在传统架构下，MoE模型训练容易因通信延迟导致算力浪费，而CloudMatrix 384超节点的分布式推理平台可以说是专为MoE大模型而生。黄瑾指出，对比一卡多专家的&ldquo;小作坊模式&rdquo;，超节点更像&ldquo;大工厂模式&rdquo;，通过高速互联总线，能够实现一卡一专家高效分布式推理，单卡的MoE计算和通信效率都大幅提升。这也是为什么有几百个政务、零售、医疗、保险、制造、矿山、旅游等各行各业的客户，基于华为云昇腾AI云服务部署DeepSeek模型的创新应用，例如在智能助手、智能客服、互联网搜索、内容创作等各种场景落地。<br />
以网强算，双层网络破解&ldquo;数据堵车&rdquo;。当AI算力走向规模化部署，单点的芯片性能不再是制约算力发展的唯一变量，如何由点及面地激活算力矩阵的共振效应，也是破解AI时代算力命题的关键一步。而释放联接力也正是超节点最大的创新突破之一，黄瑾介绍，传统网络像拥堵的城市道路，CloudMatrix 384则构建了AI专属高架桥，通过MatrixLink服务将单层网络升级为两层高速网络，一层是超节点内部的ScaleUp总线网络，确保超节点内384卡全对等高速无阻塞互联，卡间超大带宽2.8T，纳秒级时延；另一层是跨超节点间的ScaleOut网络，可支持微秒级时延，资源弹性扩展；同时，基于全局拓扑感知的智能调度算法，保障客户任务长稳运行。<br />
以存强算，弹性内存改写&ldquo;算存绑定&rdquo;。 华为云首创了EMS弹性内存存储，打破传统GPU算力与显存绑定的关键障碍，通过内存池化技术，实现显存和算力解绑。一方面，用EMS替代NPU中的显存，可使得首Token时延降低，最高降幅可达80%；另一方面，当NPU的显存不足时，EMS独立扩容，不必再通过堆NPU以获得更多内存。同时，EMS还支持算力卸载，这也使得系统吞吐量提升，有的场景达100%的提升。总之，这一技术创新大幅提升了资源利用率、性能和吞吐量。<br />
长稳可靠，故障自愈的&ldquo;AI医生&rdquo;。随着模型训练需求的不断接入，大集群的运维难度大、复杂性高的问题日益凸显。对此，华为云开发了昇腾云脑运维&ldquo;1-3-10&rdquo;标准，即1分钟感知、3分钟定界、10分钟内恢复。通过5层压测、静默故障感知技术，昇腾云脑可将硬件故障感知率从40%提升至90%。同时，覆盖计算、存储、网络、软件四大种类故障模式库也打通了全栈故障场景，这一全栈故障知识库能够覆盖95%常见问题以实现故障快速定界；在恢复机制上，3层快恢技术、快速建链技术、图编译缓存等技术能够实现万卡故障快速恢复。<br />
朝推夜训，算力资源&ldquo;错峰用电&rdquo;。在大模型训练中，提升算力利用率，避免算力闲置也是企业关心的重点之一。CloudMatrix 384超节点通过&ldquo;训推共池&rdquo;&ldquo;灵活调度&rdquo;两大关键技术实现朝推夜训，白天进行模型推理，晚上闲时进行模型训练，算力资源利用率可提升30%以上。<br />
即开即用，&ldquo;算力水电&rdquo;普惠模式。为助力客户更好地专注业务模型开发，华为云已经在全国三大枢纽数据中心&mdash;&mdash;乌兰察布、贵安和芜湖完成了超节点规模布局，支持百TB级的带宽互联，10毫秒时延圈覆盖全国19个城市群，让客户能够第一时间享受到即开即用的AI算力资源。同时，华为云拥有专业的超节点运维团队，在为客户免去繁琐的管理和维护的同时，保障资源的稳定运行。<br />
黄瑾强调，华为云现已全面适配了DeepSeek在内的160多个大模型，以云服务的方式，协助客户进行模型的开发，训练，托管和应用。昇腾AI云服务上线以来，面向政府、金融、零售、互联网、交通、制造等行业已经服务六百多家创新先锋企业，加速行业智能化应用的快速落地。<br />
【来源：网易科技】<br /></p>
		<p><a href="https://wap.ikanchai.com/?action=comment&amp;contentid=626076">共有评论0条</a></p>
	<p>
	<p>相关推荐</p>
		<a href="https://wap.ikanchai.com/?action=show&amp;contentid=572604">智能编程助手！华为云CodeArts Snap免费公测：基于盘古研发大模型</a><br />
		<a href="https://wap.ikanchai.com/?action=show&amp;contentid=566082">大模型国际标准启动，华为云、百度、腾讯、蚂蚁等发起成立IEEE大模型标准工作组</a><br />
		<a href="https://wap.ikanchai.com/?action=show&amp;contentid=552282">华为云发布自动驾驶开发平台，内置盘古大模型</a><br />
		<a href="https://wap.ikanchai.com/?action=show&amp;contentid=499281">华为云全球布局加速，将在印尼爱尔兰开服</a><br />
		<a href="https://wap.ikanchai.com/?action=show&amp;contentid=428256">政企上云浪潮下，华为以“样板”价值突围云服务市场</a><br />
		<a href="https://wap.ikanchai.com/?action=show&amp;contentid=405678">手机业务不卖做大端云协同，余承东兼任华为云与计算负责人</a><br />
		<a href="https://wap.ikanchai.com/?action=show&amp;contentid=279697">百度、谷歌、亚马逊决战视频云</a><br />
		<a href="https://wap.ikanchai.com/?action=show&amp;contentid=276141">云计算迎来黄金十年，金山云如何开启双轮驱动的模式？</a><br />
		<a href="https://wap.ikanchai.com/?action=show&amp;contentid=248803">华为云即将登陆非洲 年底有望覆盖全球</a><br />
		<a href="https://wap.ikanchai.com/?action=show&amp;contentid=215835">公有云的这五大定律决定未来：看看谁能跑得更远？</a><br />
		<a href="https://wap.ikanchai.com/?action=show&amp;contentid=213706">2018下半年TMT行业预测：危险的企业各有各的危险</a><br />
		<a href="https://wap.ikanchai.com/?action=show&amp;contentid=212449">边缘计算大战开打，会上演什么样的合纵连横大戏？</a><br />
		<a href="https://wap.ikanchai.com/?action=show&amp;contentid=212448">边缘计算大战开打，会上演什么样的合纵连横大戏？</a><br />
		<a href="https://wap.ikanchai.com/?action=show&amp;contentid=212316">全球云服务市场格局“分野”，这三个现象值得关注</a><br />
		<a href="https://wap.ikanchai.com/?action=show&amp;contentid=208427">云计算十年：从战略回归战术</a><br />
		<a href="https://wap.ikanchai.com/?action=show&amp;contentid=196042">云市场的两条迷茫路：融得越多亏得越多，不跟掉队跟进掉坑？</a><br />
		<a href="https://wap.ikanchai.com/?action=show&amp;contentid=196040">云市场的两条迷茫路：融得越多亏得越多，不跟掉队跟进掉坑？</a><br />
		<a href="https://wap.ikanchai.com/?action=show&amp;contentid=190872">亏损10亿成硬门槛，2018云市场可能会融不了资</a><br />
		<a href="https://wap.ikanchai.com/?action=show&amp;contentid=160422">只从这些角度解读华为云 难免会跑偏</a><br />
		<a href="https://wap.ikanchai.com/?action=show&amp;contentid=84693">走进无人区的华为 何处寻路？</a><br />
		</p>
<p><anchor title="返回"><prev/>&lt;返回</anchor><br /><br /><a href="https://wap.ikanchai.com/" title="返回首页">&lt;返回首页</a></p>
<p align="center">Copyright CmsTop.com<br />2026年04月18日 17:52:58</p></card>
</wml>