这个月除了开局爽2天,后面都在艰难爬坑,看来回血还是要靠算力。。。
赛博卡车热度很高,但和我们国情不符,感觉用武之地不大。漂亮国几乎家家都有皮卡,也有相应的消费Xi惯,我们这大城市里家庭买卡车的消费观还是没形成,日常也没有多少拉货需求,买大件东西都是送货上门,偶尔有需求的话,叫个货拉拉什么的也很方便。高端卡车开出去也没有什么社交属性,总感觉有点鸡肋的产品。
至于
英伟达新发布的定制三款芯片,基本和团队小伙伴们上次分析的一样,性能大砍特砍。。。
理论上H100比H20的速度快了6.68倍。据分析师Dylan Petal最新发布的一篇博文,即使H20的实际利用率能达到90%,其在实际多卡互联环境中的性能仍只能接近H100的50%。
也有媒体称,H20的综合算力仅相当于H100的20%,且由于增加了HBM显存和NVLink互联模块,算力成本显著提高。
英伟达已经做出这三款芯片的样品,H20 和 L20预计将于今年 12 月推出,而 L2将于明年 1 月推出。产品采样将于发布前一个月开始。
H20 Vs. H100先来看H100,拥有80GB HBM3内存,内存带宽为3.4Tb/s,理论性能为1979
TFLO P,性能密度(TFLOPs/Die size )高达19.4,是英伟达当前产品线中最强大的GPU。
H20,拥有96GB HBM3内存,内存带宽高达4.0 Tb/s,均高于H100,但计算能力仅为296 TFLOP,性能密度为2.9,远不如H100。
理论上H100 相比H20 的速度快了6.68倍。但值得注意的是,这个比较是基于FP16 Tensor Core的浮点计算能力(FP16 Tensor Core FLOPs),且启用了稀疏计算(减少运算量,因此速度会有显著提升),因此并不能全面反映其所有的计算能力。
另外,该GPU的热设计功耗为400W,低于H100的700W,并且在HGX解决方案(英伟达的GPU服务器方案)中可以进行8路GPU的配置,它还保留了900 GB/s的NVLink高速互联功能,同时还提供了7路MIG(Multi-Instance GPU,多实例GPU)的功能。
H100 SXM TF16(Sparsity)FLOPS = 1979
H20 SXM TF16(Sparsity)FLOPS = 296
根据Peta的LLM性能对比模型表明,H20在moderate batch size下峰值token/秒,比H100高出20%,在low batch size下的token to token延迟比H100还要低25%。这是由于将推理所需的芯片数量从2个减少到1个,如果再使用8位量化,LLAMA 70B模型可以在单个H20上有效运行,而不是需要2个H100。
值得一提的是,H20的计算能力虽然只有296个TFLOP,远不及H100的1979个,但如果H20的实际利用率MFU(目前H100的MFU仅为38.1%),这意味着H20实际能跑出270 TFLOPS,那么H20在实际多卡互联环境中的性能接近H100的50%。
从传统计算的角度来看,H20相比H100有所降级,但在LLM推理这一方面,H20实际上会比H100快了20%以上,理由是H20在某些方面与明年要发布的H200相似。注意,H200是H100的后继产品,复杂AI和HPC工作负载的超级芯片。
L20和L2配置更加精简与此同时,L20配备48 GB 内存和计算性能为239个TFLOP,而 L2 配置为 24 GB 内存和计算性能193个TFLOP。
L20基于L40,L2基于L4,但这两款芯片在LLM推理和训练中并不常用。
L20和L2均采用 PCIe 外形规格,采用了适合工作站和服务器的PCIe规格,相比Hopper H800和A800这些规格更高的型号,配置也更加精简。
但是英伟达用于AI和高性能计算的软件堆栈对某些客户来说非常有价值,以至于他们不愿放弃Hopper架构,即使规格降级也在所不惜。L40 TF16 (Sparsity) FLOPs = 362
L20 TF16 (Sparsity) FLOPs = 239
L4 TF16 (Sparsity) FLOPs = 242
L2 TF16 (Sparsity) FLOPs = 193
简单汇总分析了一下,阉割版特供芯片实际性能大概是原版的20%~50%,黄氏一刀砍掉8成内功,感觉难堪大用。这里有点需要注意的是,
用于AI和高性能计算的软件堆栈 的重要性,感觉这也许是我们之前分析时所忽略的问题,对于国产算力瓶颈的突破,除了硬件性能,调度软件方面带来的易用性和效率提高也是需要重视的,这也是恒为这个网络可视化及智能系统平台为什么突然大受重视的原因,也许现在很多年轻人从来没感受过在微软的可视化操作系统windows出现之前的Dos平台操作起来多复杂吧,任何简单的操作都需要用键盘敲上相应的代码才能实现,现在回忆起来已经感觉是上一辈子的遥远事情了。。。可视化系统的出现,简化了操作,自然而然地提升了效率,那是一个跨时代的变革,也造就了微软这家伟大的公司。