在美国芯片出口管制持续收紧的大背景下,中国人工智能(以下简称:AI)芯片产业正迎来战略窗口期。根据国际数据公司(IDC)于2026年4月发布的《2025年度中国云端AI加速器市场报告》显示,2025年中国市场AI加速卡总交付量达400万片,其中国产厂商交付165万片,市场份额一举跃升至41%,英伟达220万张,占55%。
在这片迅速崛起的国产阵地上,华为昇腾、阿里平头哥与百度昆仑芯构成了最核心的“三强”方阵。2026年上半年以来,三家厂商先后密集发布新一代芯片产品和超节点方案,一场事关中国AI算力底座的战略竞赛正全面提速。
华为昇腾:以一代一代翻倍的节奏领跑
华为是国产AI芯片赛道中起步最早、生态最成熟的领跑者。
从出货量看,据《2025年度中国云端AI加速器市场报告》显示,2025年华为昇腾以81.2万张的成绩遥遥领先,占国产总出货量的49.2%,近乎“半壁江山”。而在路线规划上,华为轮值董事长徐直军早在2025年全联接大会上就明确提出了“一年一代、算力翻倍”的路线图。
到了2026年,昇腾继续保持“一年一代、算力翻倍”的节奏。第一季度,面向“推理”场景的950PR加速卡和Atlas350服务器率先上市。这块芯片配了128GB的大内存,数据吞吐速度高达1.6TB/s——你可以理解为它读取和输出的“通道”特别宽。专门针对AI推理优化后,单卡算力达到了英伟达H20芯片的2.87倍。
到了第四季度,专攻“训练”场景的950DT将接棒上场。它的内存进一步升级到144GB,带宽更是飙升到4TB/s,还将首次用上了华为自研的“HiZQ2.0”内存技术(内部代号“朱雀”),让数据搬运更快、更稳。
真正的杀手锏是昇腾的“超节点”方案——它不满足于单张芯片有多强,而是要把海量芯片连在一起,形成一支算力军团。
基于950DT芯片,华为打造了950超节点,理论上可以把8192张芯片互联起来,在FP8精度下的总算力高达1EFLOPS(也就是每秒一百亿亿次运算)。目前,1024卡规模的版本已经进入落地阶段:它由16台计算柜组成,每台柜子里塞了64张芯片,全部采用液冷散热,专门用来训练万亿参数级别的大模型。
华为内部人士向媒体透露,上一代的384卡超节点已经出货超过500套,被华为自己称为“国内唯一真正大规模商用的超节点”。这个数字在国产芯片圈子里,确实还没有第二家能做到。
硬件做得好,还得有人愿意用。华为的策略很直接——把软件工具链开放出来,让更多开发者愿意加入。
CANN编译器(可以理解为昇腾芯片的“翻译官”)在2025年底前已经针对910系列芯片完成了开源。Mind系列工具链也全面开放。目前,围绕昇腾生态聚集的合作伙伴已经超过3000家。
阿里平头哥:通云模一体的深度协同者
阿里平头哥是“三强”中布局最晚但增长迅猛的一支力量。2025年出货量达到26.5万张,稳居国产第二梯队头部。
平头哥(T-Head),全称平头哥半导体有限公司,是阿里巴巴集团全资芯片子公司,专注端云一体芯片,含光、倚天、真武为核心产品,2018年10月由阿里整合收购的中天微与达摩院芯片团队成立,名字取自“蜜獾(平头哥)”,寓意无畏、敢打硬仗。
近日在杭州阿里云峰会上,平头哥副总裁高慧文带着新一代AI芯片阵容亮相,并公布了未来几年的升级路线。
据中国工业报了解到,最新发布的M890芯片,性能比上一代直接翻了3倍。它配备了144GB的显存(可以理解为芯片自带的“高速工作区”),芯片之间的互联带宽达到800GB/s,还支持低精度计算(IP8和IP4),在不损失太多效果的前提下跑得更快。
按照规划,2027年第三季度将推出V900芯片,性能再翻3倍,显存扩容到216GB,带宽提升到1200GB/s。2028年第三季度,G900芯片将作为面向下一代算力需求的旗舰产品登场。
平头哥有一个别人很难复制的优势——背靠阿里集团,可以和云团队、大模型团队“坐在一起”搞研发。高慧文说,他们打破了过去那种“先设计芯片、再交给云团队、再适配模型”的串行模式,而是几个团队并行协作,用最快速度把硬件推上线。这种“通(义)云(阿里云)模(模型)一体”的深度协同,让芯片从设计到实际应用的时间大大缩短。
单张芯片再强,也得能连起来干活。平头哥自研了两样关键东西:一个是叫ICN的片间互联协议,一个是配套的PCCF通讯库。再配合自研的ICNSwitch交换机芯片,可以在一个节点内把64张芯片全带宽互联起来,芯片之间数据“串门”的延迟不到150纳秒(比眨眼快几百万倍)。
有了这套互联技术,平头哥的“磐久服务器”超节点架构就能让万亿参数级别的大模型,不需要跨节点运行——也就是所有芯片在一个“房间”里就把活干完了,效率更高。
据阿里云峰会公布数据,截至2026年4月,平头哥的“真武”系列芯片累计出货已经超过56万片,服务了20多个行业、400多家客户。具体在智能驾驶领域,部署超过13万张芯片,服务30多家客户;在金融领域,部署超过10万张芯片,服务150多家客户。
高慧文还特别提到,在同等精度条件下,真武芯片的单机推理性能平均比同类产品高出50%以上——也就是说,同样一台机器,用真武芯片能干的活更多。
值得关注的是,平头哥已经不满足于只做AI芯片(GPU)。它亮出的“全家福”产品线涵盖了:真武系列(AI芯片)、一天系列(CPU,负责任务编排)、ICNSwitch(互联交换机芯片)、Camel920(400G智能网卡)、骏悦系列(存储控制器芯片)。
这意味着平头哥正在从一个单纯的AI芯片供应商,转型为覆盖算力、存储、网络的全栈基础设施提供商——不光是“造芯片”,而是提供一整套数据中心级的解决方案。
百度昆仑芯:从内部验证到外部突围
2026年对百度昆仑芯来说是高光之年。5月初,昆仑芯正式启动科创板上市辅导,计划在A股和港股同时上市(也就是“A+H”模式),资本市场的大门即将打开。
昆仑芯的产品序列已经走过了三代:第一代K系列:主打云端推理,让AI模型在云端“动脑子”做判断;第二代R系列:性能比前代提升了2到3倍,算力上了一个大台阶;第三代P800:采用百度自研的XPUP架构,在FP16精度下的算力达到345TFLOPS(每秒345万亿次浮点运算),是目前的主力产品。
未来还有两代蓄势待发:第四代M100计划2026年上市,面向大规模推理场景;第五代M300计划2027年上市,专攻超大规模的多模态训练(比如同时处理文字、图片、视频)。
新一代芯片用的是RISC-V架构(一种开放的芯片指令集),百度在此基础上增加了50多条专门为AI设计的指令,相当于给芯片“开了小灶”。单位功耗算力达到8.3TOPS/W,比行业平均水平高出2.1倍——简单说,就是同样的电量,它能干比别人多一倍的活。
而且它支持的模型参数范围很广,从10亿到10000亿参数都能跑,小模型大模型通吃。
昆仑芯也玩起了“超节点”。它的方案是把64张AI加速卡塞进一个标准机柜里,用3D-Torus网络拓扑(一种立体的互联结构)和定制的高速总线,把卡间带宽提升了8倍。结果是:单柜的训练性能提升10倍,单卡的推理性能提升13倍。一个机柜就能顶过去十个机柜的活。
昆仑芯最值得关注的转变是——它不再只是百度自己用,而是开始大量卖给外面的企业了。
据招股书显示,2025年,外部客户的收入已经超过总收入的一半。招商银行、南方电网、吉利汽车等大牌企业都成了它的客户。在中国移动的AI服务器采购中,基于昆仑芯P800的方案拿下了多个标段,中标份额分别高达70%、70%和100%——基本上是“独占鳌头”。
2025年至今,基于P800的“万卡集群”(一万张芯片互联的大规模算力集群)已经交付了好几个。2026年6月,基于昆仑芯的“天池256卡超节点”将正式上市。
这个超节点有多强?它搭载的全国产芯片集群,有效训练率达到了97%——也就是说,100%的算力投入,有97%都实实在在地用在了训练上,浪费极少。它已经成功完成了百度文心5.1等重要大模型的训练任务,实战能力得到了验证。
格局与展望:从单芯片竞争到集群生态之争
综合“三强”的最新动态,国产AI芯片的竞争格局正呈现几个清晰趋势:
据《2025年度中国云端AI加速器市场报告》显示,2025年国产AI芯片市占率从2024年的约30%提升至41%。英伟达虽然仍有出货优势,但其在华市场份额已从约70%降至55%。这一结构性变化表明,国产替代趋势已从政策驱动转向市场驱动。
华为昇腾以深厚的芯片设计积累和软件生态优势领跑,计划2027年推960、2028年推970系列,搭配超节点集群方案形成全栈覆盖;阿里平头哥凭借“通云模一体”的协同优势和后发速度迅猛追赶;百度昆仑芯则以RISC-V架构开辟差异化路线,从内部验证走向外部市场拓展。技术路线各显特色。
当单芯片工艺差距尚难在短期内抹平时,“超节点”成为三家的共同解法——华为的950超节点、百度的天池超节点、平头哥的磐久服务器,都以大规模集群互联弥补单卡性能短板。可以预见,未来国产AI芯片的竞争,将更多体现在互联架构、超节点规模、集群效率和软件生态的一体化较量上。
正如中国工程院院士、清华大学教授郑纬民院士在2024世界人工智能大会上表示,“生态好不好,关键看用户用得习不习惯、移植顺不顺畅”;英伟达的壁垒是CUDA使用习惯,国产替代本质是重新培养开发者习惯。当英伟达芯片不可得时,中国企业终将凝聚成新的生态合力。“三强”能否在各自体系中构建起足够强大的开发者生态,将决定其在国产AI芯片赛道上的最终站位。
真正的考验或许才刚刚开始——“三强”并起的格局之下,谁能率先突破规模化瓶颈、实现从“可用”到“好用”的跃迁,谁就有可能在这场关乎国运的算力竞赛中占据先机。 |