今年Computex上,NVIDIA的多种“AI电脑”形态亮相——但和你想得不同,主角仍然不是GeForce...可能不少同学已经忘了Computex是“台北国际电脑展”——即便其定位也在随着技术发展做调整,但最初它可是主要面向“电脑”或“个人计算机”的。而现在Computex展上,除了传统意义上的“电脑”,你还能见到不少IoT、机器人、数据中心产品。
我们感觉在这种转变上,颇具代表性的一个标志性事件是,黄仁勋(NVIDIA CEO)在今年Computex的主题演讲中花了2分钟发布GeForce RTX 5060,剩下的一个多小时都是在谈AI基础设施、Omniverse、机器人。
他在会上也挺有“自知之明”地说:“GeForce把我们带到这里,虽然我们现在的主题演讲90%都不是相关于GeForce。”“当然原因不是我们不再热爱GeForce了。”然后转头就开始聊CUDA相关的行业生态了...(GeForce的发布会比重分明只有1%.....)
毕竟从营收规模角度,前不久我们也分析过Gaming业务当前在NVIDIA的比重大不如前了。不过实际上,从AI基础设施的角度来看,在NVIDIA现如今的版图下,采用RTX显卡的PC也是其中一环——这一点我们在今年的GTC期间就谈过。
从正儿八经“电脑”的角度,下面这张图展示了基于NVIDIA GPU的、不同规模的AI基础设施——虽然称不上全家福:其中就有作为个人电脑的RTX Laptop(虽然未必是采用消费级GeForce显卡),也有今年上半年特别火的DGX Spark,当然还有核弹级、内置72颗Blackwell数据中心GPU的Grace Blackwell NVL72系统...

这就是传说中的“一个架构”覆盖各设备形态与应用场景。老黄在发布面向企业与工业的AI计算平台RTX PRO Server服务器时,还特别提了一句“这上面能跑《孤岛危机(Crisis)》”,以及顺便问了句“台下有GeForce游戏玩家吗?”,也算是给“AI源起自GeForce”官方正名了。
何况老黄也始终是将DGX这样的设备称作“AI Computer”的,再大规模也依旧是“电脑”或“计算机”——算是给Computex的“电脑”主题点题了。
那么借着本次NVIDIA在Computex发布多款AI“计算机”的机会,本文就相对片面地试着谈谈NVIDIA不同规模的AI基础设施布局;并且帮助大家和我们自己,从边缘、个人,到企业、云,理解NVIDIA现如今的系统级产品在性能扩展上的逻辑与技术...
比肩当年超算的AI个人计算机
真正面向个人电脑的GeForce及专业视觉卡就不谈了,电子工程专辑就GeForce显卡产品也做过系列体验。在“个人电脑”或者叫“桌面上的AI超算”范畴,今年CES之上大火的一款产品就是老黄拿在手里、看起来像是缩小版DGX服务器的小设备——当时还叫Project DIGITS,后正式定名DGX Spark。

今年CES的报道也特别聊过这台设备:和Jetson这类面向边缘的计算机不同,DGX Spark各方面的规格都相当认真和充沛:其中的GB10芯片,CPU部分是10个Cortex-X925核心 + 10个Cortex-A725核心(这颗CPU也被标注为Grace CPU);Blackwell GPU内藏1000 TOPS算力(Tensor core,应该是指FP4算力1 PetaFLOPS);主内存为128GB LPDDR5X,也有1TB/4TB NVMe SSD。
从外媒(Notebookcheck)泄露的跑分成绩来看,GB10的CPU在单核性能表现上就已经能够和高端Arm/x86处理器比肩。加上对WiFi 7/蓝牙5.3的支持,还配有RJ45以太网接口,似乎就和一台PC相似;虽然DGX OS操作系统,以及特别配的ConnectX-7 NIC(用于实现两台DGX Spark互联是实现算力扩展),还是令其不同于传统PC。
“这是专为AI原生开发者准备的。”“对开发者、学生、研究人员而言,你可能期望有属于自己的AI云,就摆在你身边;用于原型设计、早期开发等等。”Computex上,老黄宣布DGX Spark已经完全量产,也会有包括Dell, HPI, 华硕, 微星, 技嘉, 联想等在内的OEM厂商推出不同的OEM设备。
比较有趣的是,黄仁勋在主题演讲中特地将当年的DGX-1与DGX Spark放在一起做了尺寸上的对比。“两者的性能很相近。现在相同的工作也可以在这台设备(DGX Spark)上干了。”“仅仅大约10年时间,就有如此进步。”既然NVIDIA常把DGX称作Supercomputer(超级计算机),这一刻也算是这个时代下小台式机(DGX Spark)AI性能媲美超算(DGX-1)了吧。
此前不少读者好奇,DGX Spark能不能像GeForce设备那样玩游戏。我们现在仍然不清楚GB10芯片的图形渲染算力堆料多少。不过某些OEM厂商资料提到GB10芯片用上了6144个CUDA core,也配有RT core。
大致猜测,如果配套图形渲染固定功能单元跟上的话,那么其游戏性能大约与GeForce RTX 5070相似。当然玩游戏的前提是解决Linux + Arm生态问题,就像我们此前试用Jetson Orin Nano时提到的那样。

DGX Station内部——这款产品大概主要会由OEM厂商来推
另外,今年GTC上NVIDIA还发布了一款相较DGX Spark规格更高、尺寸稍大的DGX Station,是我们3月份的报道未有提及的。NVIDIA对其定位是能跑1万亿参数模型的个人AI设备。
虽然还是“个人设备”,但DGX Station的配置就明显更向服务器或企业产品靠拢了:无论是基于Neoverse V2的72核Grace CPU,还是为Blackwell Ultra GPU所配的288GB HBM3e显存,和多一个层级的496GB LPDDR5X主内存,以及CPU和GPU之间的互连动用到了NVLink-C2C。
注意,DGX Station可是用上了最新的GB300——NVIDIA官网称其为GB300 Grace Blackwell Ultra Desktop Superchip。当然基于ConnectX-8的networking,DGX Station也支持多设备性能扩展。在我们看来,DGX Station明显更像AI计算集群的微缩版。
除了同样是AI原生计算机,“这可能是目前市场上性能最强,可直接从墙插(wall socket)取电的计算机了。”“其编程模型与我们的那些巨大系统是一样的。”有没有感觉,就形态和生态角度,DGX Spark和DGX Station作为更偏个人的AI原生计算机,的确还真是比隔壁的某AI Max+高上不少的?至少其思路更明确。
能玩《孤岛危机》的企业服务器
理论上,这两款产品往更高AI算力水平走,后面应该是DGX B200(8x Blackewell GPU)和GB200。不过有关同架构算力扩展——不管是scale-up还是scale-out,我们都打算放到后文介绍GB300 NVL72的部分去谈。Computex上发布的、相比上述DGX Spark和DGX Station,更高AI算力的新设备为NVIDIA RTX PRO Server。
严格意义上RTX PRO Server不应当与DGX系列相提并论。黄仁勋之所以开玩笑式的提了一句它能跑《孤岛危机》,就在于其较高的RTX图形性能(以及搭配x86 CPU),可用于实时的Omniverse数字孪生模拟(所以其实更像OVX?)。
RTX PRO系列芯片本身有面向服务器、工作站和移动工作站的不同产品;所以RTX相关产品的算力伸缩,往下也不是DGX Station/Spark,而应该是RTX Blackwell专业视觉工作站和GeForce游戏设备。
不过在“一个架构”的指导思路下,在我们看来NVIDIA不同系列的芯片、系统及设备,硬件层面的确也就是AI, HPC, graphics之间的资源分配问题。所以即便OVX和RTX PRO Server也是面向Omniverse的计算机,但它们同样也重AI性能。

本次发布的RTX PRO Server服务器,是面向“企业AI与工业AI的运算平台”:总共8张RTX PRO 6000服务器版显卡(单卡24,064 CUDA core, 752 Tensor core, 188 RT core, 96GB GDDR7显存——即便不看连接,单卡的算力与存储资源堆料显然是超RTX 5090的,游戏自然是小意思);
基于ConnectX-8 SuperNIC交换(应该是4颗芯片),可实现800Gb/s的全连接带宽(PCIe Gen 6!);组合出理论峰值FP4算力30 PFLOPS;用于Omniverse这样的图形数字孪生模拟场景时,提供3 PFLOPS的图形性能;800GB显存。
顺带一句,单卡GeForce RTX 5090的这一数值是104.9 TFLOPS。不考虑通信延迟、编程兼容性之类的实际问题,如果真的用RTX PRO Server服务器玩《孤岛危机(Crysis Remastered Trilogy)》,那么在不开DLSS的情况下,大致预估并行跑10个4K+最高画质@60fps应该没问题;算上AI加成的话,就没法估计了…
当然肯定没有企业会这么用:对于企业用户而言,它能跑各种传统Hypervisor,跑虚拟桌面等;当然也能跑Omniverse,以及企业AI——包括现在流行的Agentic AI。

尤为值得一提的是,这款服务器产品里头除了8张GPU以外,还有张板子专门用于数据交换(上图),基于ConnectX-8 NIC——“用于交换与networking(switch first, networking second)”,“也是目前全球最先进的networking芯片”。“每个GPU都有自己的networking接口,东西向(east-west traffic)网络实现了GPU的全连接。”
GTC主题演讲中,黄仁勋谈过企业的生成式AI应用中,服务面向个体用户的响应速度及整体AI吞吐能力(tks/s)这两个无法两全的变量。而软硬件的性能与效率提升,有利于两者的同时提升。前不久电子工程专辑的文章也探讨过这个问题。
当将这两个变量作为x和y轴画在一张图上,对于特定的硬件和AI模型而言,基于不同的配置,则可以得到一条类似抛物线的曲线(下图)。曲线与坐标轴形成的面积越大,也就表明AI基础设施为企业造就的价值越高。

针对本次新发布的RTX PRO Server,NVIDIA给出的数据是,在跑Llama 70B模型(8K ISL / 256 OSL)的时候,特定配置之下(通常是曲线上达成最大平衡的点),其表现是H200的1.7倍。如果换成DeepSeek R1(128K ISL / 4K OSL),则相比H100 HGX服务器领先4倍。
算力规模的scale-up与scale-out
算力需求再往上走,就该到机柜级别了。在谈GB300 NVL72系统之前,这里先插入个有趣的话题:GTC 2025期间,黄仁勋曾着重明确过有关性能扩展的两个词:scale-up与scale-out。这两个词感觉要翻译成中文有难度,后文就都用原单词来指代对应概念。
一般我们对算力扩展的大方向理解是:芯片层面通过摩尔定律来提升算力水平,封装层面可通过多die或chiplet再做算力扩展,板级可以用多芯(多封装)方案;然后就是一张板子上插很多张卡,构成服务器;服务器之间还可以通过networking互连,组成机柜、计算集群等等……
为什么现在常能听到有人说,NVIDIA在AI领域的所谓“生态”优势绝不仅在CUDA和各种软件上,还在于交换和networking技术?就因为NVIDIA在上述算力扩展/伸缩的每个环节都做到了几乎是业界最佳,且竞争对手一时半会儿难以望其项背。
说穿了算力扩展也就是把一堆计算机(或芯片)合起来一块儿工作,但怎么高效率地“合”是关键。单系统内的算力扩展在NVIDIA的定义中就是scale-up;当涉及系统外的networking互连达成算力扩展则为scale-out。所以黄仁勋说在scale-out之前,首先要做scale-up。当然这里还涉及“系统”究竟是什么的问题。
我们理解老黄对于这两个词的界定为,一个完整的NVLink域内的算力扩展就是scale-up,比如说Grace Blackwell NVL72系统。去年GTC上,NVIDIA发布GB200 NVL72——这就是个由72颗Blackwell GPU构成的完整系统,设备形态已经是个机柜了。
本文不打算去谈scale-out——前不久挺火的NVIDIA CPO硅光芯片就应当被划归到scale-out算力扩展范畴,所以显然在scale-out方向上,NVIDIA也是在花功夫的。

至于NVLINK域内的scale-up,“做scale-up非常难。”从今年GTC上NVIDIA的新品预告来看,后续NVIDIA还准备把scale-up范围扩展到576片GPU die(Rubin Ultra NVL576)。好像NVIDIA在市场宣传方向上,也热衷于将一个充分scale-up过的系统称作“一颗巨大的GPU”,以强调系统内部协作的高效性。去年黄仁勋就说,GPU已经从早期的那一小颗芯片,变成了现在这么这么大(NVL72机柜)…
今年黄仁勋对scale-up的比喻更有趣,他将NVLINK视作CoWoS封装的上层技术——是不是挺形象的?既然说NVL72机柜是一整颗虚拟GPU,CoWoS作为台积电的芯片先进封装技术将chiplet连到一起;那么NVLINK作为连接这些GPU的技术,也扮演了类似的角色,只不过层级不同罢了。

而GB NVL72系统在黄仁勋看来,也是突破半导体物理限制、构建起的更大型AI计算机。
Computex上,NVIDIA发布的是更新的Grace Blackwell Ultra(GB300,主体1颗Grace CPU + 2颗Blackwell Ultra GPU)。Blackwell Ultra是Blackwell的改良款;GB300相比GB200则对应实现了FP4算力水平1.5倍提升(40 PFLOPS),HBM3e显存性能1.5倍提升(567GB @16TB/s),ConnectX-8带宽2倍提升(800Gb/s)。
一个有趣的数字——最近也被不少媒体提过,40 PFLOPS这个数字已经超过了2018年采用18000个Volta架构GPU的Sierra超算。也就是现在一个计算节点就能超越当年的整个超算。显然这4000倍性能提升绝不单是芯片技术提升所能达成的了。

GB300(和基于x86的B300)服务器开始采用100%液冷方案;最右边的是NVLINK交换设备,可达成7.2TB/s的交换速率;
当GB300再构成GB300 NVL72系统时,72颗GPU再度构建起完整scale-up过后的NVLINK域。每次黄仁勋都很喜欢强调,NVLINK骨干带宽130TB/s,超越整个互联网峰值流量速率;有时候说NVLINK相当于把整个机柜变成一张主板,有时候说让机柜变成一颗巨型GPU…总体都是要表明,自家NVLINK技术之优秀。
不过就组建GB NVL72这样一套AI计算机整体,在NVIDIA的介绍视频中也还是明确了整个产业链所做的共同努力的。这样一台“AI电脑”机柜总体由1200万个组件、2英里的铜缆、130万亿晶体管构成,重达1800kg(这些形容的主要是GB200 NVL72)。
还有个“AI电脑”定制服务...
电子工程专辑现在也很难得的,在相关NVIDIA的产品与技术报道文章里,单纯地只谈硬件,毕竟人家反复在说自己“是家软件公司”,以及软件和生态才是上述硬件得以大卖的驱动力。
当然Computex主题演讲中,黄仁勋也必然是把很大篇幅给到了为企业AI构建的软件中间层和工具、在存储互连相关软件上所做的努力;以及CUDA为基础的各种库的:量子计算、通信、气象、CAE、光刻、数据科学,还有AI。这些可以说是NVIDIA赖以生存,及发展各应用领域的根本(游戏:???)。我们在以往的文章里也谈得挺多的了。
不过谈生态也未必要说软件:NVLINK就是一种生态,且能造成产品差异化。NVIDIA在今年的Computex上,又让这种差异化更进一步了——虽然和本文要探讨的AI计算机关系不是那么大——这部分我们后续还会做深入探讨。

这次NVIDIA发布了名为“NVLink Fusion”的定制ASIC支持。对一般人理解的NVIDIA AI而言,芯片与系统产品是完全固定的。而在NVLink Fusion IP的支持下,客户可以加入自己的ASIC——可以是专门的AI加速器或其他类型的加速器。
因为目前我们对于NVLink Fusion实践的商业模式,具体怎么操作仍然不是那么清楚,所以这部分完全引用老黄在发布会上说的话:
“我们构建了NVLink chiplet,作为数据交换使用紧靠你的(定制)芯片;会有融入半定制ASIC的IP。完成以后,它就能加入到计算板子、AI超算生态系统之中。”黄仁勋解释说,“或者你可能想用自己的CPU——可能你已经为CPU构建起了很庞大的生态系统,然后期望把NVIDIA融入到生态中。现在我们就为你提供了这种可能性。”

“我们会把NVLink接口放到你的ASIC之中,连接到NVLink chiplet上——然后直接与Blackwell或者Rubin芯片相邻。”“向每个人提供融合的灵活性和开放性。”如此一来,“AI基础设施有属于你自己的组成部分,也有NVIDIA GPU;还能用上NVLink基础设施和生态,比如连接到Spectrum-X。”
由于要真正完成NVLink Fusion合作,光有NVIDIA的支持还不行,所以加入到这项服务中的参与者也不少,包括Alchip, AsteraLabs, Marvell, 联发科, 高通, Cadence, Synopsys, 富士通等。“这里面就有半定制ASIC供应商;有可构建支持NVLink的CPU企业;还有像Cadence, Synopsys这样,将我们的IP给到他们,他们再与客户合作,将这些IP应用到客户的芯片之中。”

虽然目前我们对于NVLink Fusion的全貌仍旧知之甚少,也不知道这么做涉及的操作难度如何、定制成本怎样;但NVLink Fusion的发布还是令我们颇感意外的——NVIDIA竟然要支持不同厂商的CPU,乃至其他ASIC加速器…
这或许也是NVIDIA针对AI时代应用多样化、业务个性化需求的响应策略——以及在应用导向的芯片设计、软件定义时代的具体动作;但这无论如何都是深度扩展NVLink与NVIDIA AI生态的一步,乃至在客户启动合作后产生生态依赖与粘性的关键。
“如果你什么都从NVIDIA买,当然没什么比这让我更高兴的了;但如果你从NVIDIA买一部分产品,我也会很高兴。”(原句:Nothing gives me more joy than when you buy everything from NVIDIA. But it gives me tremendous joy if you just buy something from NVIDIA.)所以NVLink Fusion的动向绝对是值得我们后续再做关注的。

回到AI计算机角度,这就是基于NVIDIA先进技术为客户定制AI计算机了。用老黄的话来说:“我们不是在建AI服务器和数据中心,我们是在建AI工厂”,“我们不仅是在构建下一代IT,更是在构建全新的行业。”
常被黄仁勋拿来与电力基础设施相比的AI工厂之所以叫“工厂”,就是因为在NVIDIA看来“智能”或token,就是未来人类赖以生存的基础设施。“NVIDIA不仅是一家科技企业,还是一家关键基础设施企业。”这高度拔的…
每次我们看NVIDIA的发布会,都有种从GeForce源起到如今不同规模AI计算机铺陈于世的感慨。“1993年初创公司之时,我还在想我们究竟能有多大的市场机会。当时我推测NVIDIA的业务机会会非常巨大,应该有3亿美金,我们会变得很富有。”
而现在我们知道,从游戏显卡到1800kg的巨型GPU,面向数据中心乃至到基建的高度,哪还是最初3亿估算可比的呢?