NVIDIA AI晶片H20在中國市場的效能表現及影響分析

AI晶片限制規定對NVIDIA產品在中國市場的影響

近期，2023年10月的美國商務部對AI晶片出口中國的限制規定進行了更新，規定了對於AI算力晶片產品的算力、算力密度以及頻寬等方面的具體要求。這一規定直接影響了NVIDIA在中國市場的產品佈局，使得之前針對中國市場定製的產品如A800、H800以及其他未受限制的AI晶片都受到了一定程度的限制。為了滿足這一規定，NVIDIA不得不推出了專門針對中國市場的產品系列，例如H20、L20以及L2。

NVIDIA針對中國市場定製的產品引數調整

從這些新產品的引數來看，H20的FP16、INT8等算力引數僅為A100的一半左右，甚至只有H100的約1/7；而L20的算力引數相較於L40、L40S也分別下降了約1/3、2/3。這些針對中國市場定製的產品算力引數被大幅削減，導致市場對其效能表現和價效比持有保守或懷疑態度。

NVIDIA內部關於H20產品的看法

在先前關於英偉達H20的傳言中，NVIDIA內部人士承認H20經過調整後的單卡算力僅相當於H100的20%，效能也僅略高於國產910b的60%左右。然而，他們強調，H20依然具有兩大優勢：一是H20的HBM容量（96GB）及頻寬遠超過910B（甚至高於A100/H100的80GB HBM3），頻寬是910B的兩倍；二是NVIDIA的NVlink架構。H20可以透過多卡使用、多卡堆疊模式完全超越910B，甚至突破H100。同時，該內部人士表示H20在中國市場的訂單一直穩定，市場部尚未接到大量訂單取消的現象。

H20在大型推理端表現優異

最近，廣發電子團隊對H20、L20等產品在大型推理端的效能進行了理論計算及研究。根據計算結果，H20、L20均展現出較出色的推理效能，具體內容如下：

推理效能對比

根據推測，H20的推理效能超越了H100，而L20的推理效能與L40、L40S基本相當。
在不同推理場景下，H20的推理速度顯著優於A100，部分情況下也超過了H100；而L20的推理速度與L40、L40S相差無幾。

算力表現分析

為什麼H20在算力上經過削減後仍能展現出優異的推理效能呢？廣發電子的研究團隊從Prefill階段和Decode階段的角度分析了H20的推理效能表現。

Prefill階段

Prefill是算力密集的階段，H20在此階段受算力限制表現相對較弱。具體表現在對所有輸入Tokens進行平行計算以及視訊記憶體頻寬主要體現在引數從HBM向算力晶片的傳輸上。由於H20的算力相對較弱，在Prefill階段的耗時明顯高於其他晶片。

Decode階段

Decode是視訊記憶體頻寬密集的階段，H20表現出色。在Decode階段，H20相對於A100、H100具有較高的視訊記憶體頻寬，從而在整個推理過程中具有更高的推理速度。

H20綜合性能及特殊情況

總體而言，H20在多數推理場景下效能出色、價效比較高，但在特殊情況下可能出現一些問題。使用者在使用H20進行推理時可能會遇到較長的等待時間，但一旦開始生成回答，速度會較快。綜合來看，H20可能成為大多數推理場景下的價效比較高的選擇。

結論

因此，廣發電子認為H20在大多數推理場景下表現優異且價效比高，但並非適用於所有場景。最終的決定仍需根據實際使用需求、成本等因素進行綜合考量。

編輯：芯智訊-浪客劍資料來源：廣發電子