AI晶片限制規定對NVIDIA產品在中國市場的影響
近期,2023年10月的美國商務部對AI晶片出口中國的限制規定進行了更新,規定了對於AI算力晶片產品的算力、算力密度以及頻寬等方面的具體要求。這一規定直接影響了NVIDIA在中國市場的產品佈局,使得之前針對中國市場定製的產品如A800、H800以及其他未受限制的AI晶片都受到了一定程度的限制。為了滿足這一規定,NVIDIA不得不推出了專門針對中國市場的產品系列,例如H20、L20以及L2。
NVIDIA針對中國市場定製的產品引數調整
從這些新產品的引數來看,H20的FP16、INT8等算力引數僅為A100的一半左右,甚至只有H100的約1/7;而L20的算力引數相較於L40、L40S也分別下降了約1/3、2/3。這些針對中國市場定製的產品算力引數被大幅削減,導致市場對其效能表現和價效比持有保守或懷疑態度。
NVIDIA內部關於H20產品的看法
在先前關於英偉達H20的傳言中,NVIDIA內部人士承認H20經過調整後的單卡算力僅相當於H100的20%,效能也僅略高於國產910b的60%左右。然而,他們強調,H20依然具有兩大優勢:一是H20的HBM容量(96GB)及頻寬遠超過910B(甚至高於A100/H100的80GB HBM3),頻寬是910B的兩倍;二是NVIDIA的NVlink架構。H20可以透過多卡使用、多卡堆疊模式完全超越910B,甚至突破H100。同時,該內部人士表示H20在中國市場的訂單一直穩定,市場部尚未接到大量訂單取消的現象。
H20在大型推理端表現優異
最近,廣發電子團隊對H20、L20等產品在大型推理端的效能進行了理論計算及研究。根據計算結果,H20、L20均展現出較出色的推理效能,具體內容如下:
推理效能對比
- 根據推測,H20的推理效能超越了H100,而L20的推理效能與L40、L40S基本相當。
- 在不同推理場景下,H20的推理速度顯著優於A100,部分情況下也超過了H100;而L20的推理速度與L40、L40S相差無幾。
算力表現分析
為什麼H20在算力上經過削減後仍能展現出優異的推理效能呢?廣發電子的研究團隊從Prefill階段和Decode階段的角度分析了H20的推理效能表現。
Prefill階段
Prefill是算力密集的階段,H20在此階段受算力限制表現相對較弱。具體表現在對所有輸入Tokens進行平行計算以及視訊記憶體頻寬主要體現在引數從HBM向算力晶片的傳輸上。由於H20的算力相對較弱,在Prefill階段的耗時明顯高於其他晶片。
Decode階段
Decode是視訊記憶體頻寬密集的階段,H20表現出色。在Decode階段,H20相對於A100、H100具有較高的視訊記憶體頻寬,從而在整個推理過程中具有更高的推理速度。
H20綜合性能及特殊情況
總體而言,H20在多數推理場景下效能出色、價效比較高,但在特殊情況下可能出現一些問題。使用者在使用H20進行推理時可能會遇到較長的等待時間,但一旦開始生成回答,速度會較快。綜合來看,H20可能成為大多數推理場景下的價效比較高的選擇。
結論
因此,廣發電子認為H20在大多數推理場景下表現優異且價效比高,但並非適用於所有場景。最終的決定仍需根據實際使用需求、成本等因素進行綜合考量。
編輯:芯智訊-浪客劍 資料來源:廣發電子