NVIDIA GPU 选型指南

代际关系、规格参数、部署成本 — Agent 开发者视角的 GPU 知识体系

未分类 · 2026 年 6 月 · 数据来自 NVIDIA 官方、GMI Cloud、JarvisLabs、Lambda Labs、CUDO Compute、Spheron 等渠道的交叉比对

📌 阅读提示

本文面向 Agent 开发工程师,聚焦于 LLM 推理部署 场景。训练、HPC、图形渲染等其他场景仅作简要提及。所有价格数据来自 2026 年 Q1/Q2 多个云厂商公开报价的交叉比对,但 GPU 市场波动剧烈,请以实际询价为准。

一句话摘要

NVIDIA 数据中心 GPU 按架构分代(Ampere → Ada Lovelace / Hopper → Blackwell),按定位分四级(入门 / 中端 / 高性能 / 旗舰)。作为 Agent 开发者,选 GPU 本质上是选三件事:显存够不够装你的模型、带宽够不够快、每小时花多少钱。当前(2026 年中)的性价比甜点是 H100 跑生产、L40S 跑中等规模推理、H200 跑大模型 + 长上下文

为什么 Agent 开发者需要了解 GPU

你可能会问:我只是调 API 写 Agent 逻辑的,为什么要关心 GPU?三个原因:

  1. 私有化部署:客户可能要求模型部署在自己的 GPU 集群上,你需要能判断"这配置够不够跑"。
  2. 成本估算:Agent 系统往往涉及多模型协作(路由模型 + 工具调用模型 + 推理模型),每一步都在消耗 GPU 算力。你需要估算单次调用的实际成本。
  3. 性能优化:Agent 场景的特殊性(多轮对话、长上下文、高频 tool calling)使得 GPU 选型不同于普通聊天机器人,上下文越长对显存的压力越大。

Agent 场景 vs 普通 LLM 推理的区别

  • 更长的上下文:Agent 需要保留多轮 tool calling 历史,动辄 32K-128K tokens,KV Cache 开销远大于单轮对话
  • 多模型协同:路由模型(小)+ 推理模型(大)+ 工具模型,不同卡跑不同模型是成本最优解
  • 突发并发:用户请求不是均匀分布的,需要考虑峰值并发的 GPU 容量

架构代际关系

NVIDIA GPU 的核心是架构(Architecture)。每一代架构带来新的制程工艺、新的 Tensor Core 代数、新的数值精度支持。理解代际关系是理解所有型号的钥匙。

直觉类比:架构就像汽车的底盘平台。同一个底盘可以造出家用轿车(消费卡)、商务车(工作站卡)、卡车(数据中心计算卡)。A100(Ampere)和 RTX 3090(Ampere)共享同一套设计理念,但硬件配置和驱动调校完全不同。

2016
Pascal
P100
2017
Volta
V100 · 首代 Tensor Core
2018
Turing
T4 · 首代 RT Core
2020
Ampere
A100 · MIG · TF32
2022
Ada Lovelace
L40S · RTX 4090 · FP8
2022
Hopper
H100 · Transformer Engine
2024-2025
Blackwell
B200 · B300 · FP4
2026
Rubin
Vera Rubin NVL144
2028
Feynman
路线图中

关键分叉:数据中心线 vs 消费线

从 Ampere 开始,NVIDIA 明确将同一代架构分成两条线:

代际数据中心线(AI/HPC)消费/工作站线(游戏/渲染)共享特性
Ampere (2020) A100 (GA100)、A40、A10 RTX 3090 (GA102)、RTX 3080 第 3 代 Tensor Core、TF32、MIG(仅 A100/A30)
Ada Lovelace (2022) L40S、L40、L20、L4 RTX 4090 (AD102)、RTX 4080 第 4 代 Tensor Core、FP8、AV1 编码
Hopper (2022) H100H200(纯数据中心,无消费对应) Transformer Engine、FP8、DPX 指令、第 4 代 Tensor Core
Blackwell (2024-2025) B200、B300、GB300 NVL72 RTX 5090 (GB202) 第 5 代 Tensor Core、FP4、第二代 Transformer Engine

🧠 关键认知:Ada Lovelace 和 Hopper 的关系

Ada Lovelace 和 Hopper 是同一代(2022)的两个分支,不是先后关系。Ada Lovelace 面向图形+AI 混合场景(L 系列、RTX 40 系列),Hopper 是纯 AI/HPC 加速器(H 系列)。两者共享第 4 代 Tensor Core 和 FP8 支持,但 Hopper 独有 Transformer Engine(能自动在 FP8/FP16 间切换以优化精度和速度),并且因为使用 HBM 显存,带宽远超 Ada 的 GDDR。

核心概念速通

在进入具体型号前,先建立几个关键概念。这些是理解"为什么某些 GPU 适合某些场景"的底层逻辑。每个概念都附带直觉理解,帮助你建立心理模型。

显存(VRAM)— 能装多大的模型

直觉类比:显存像书桌大小。桌子太小,连一本书都摊不开;桌子够大,你可以同时摆好几本书来回翻。

LLM 推理中,显存被三样东西占据:

  1. 模型权重:参数量 × 每参数字节数。70B 参数 FP16 精度 ≈ 140 GB(70B × 2 bytes)
  2. KV Cache:推理时缓存的 Key 和 Value。估算公式:
    2 × num_layers × num_kv_heads × head_dim × seq_length × bytes_per_element
    对于 Llama 2 70B FP16 KV + 4K 上下文:每个并发请求约 0.4 GB;32 并发约 13 GB;32K 上下文约 100 GB
    这就是为什么长上下文 Agent 场景特别吃显存——KV Cache 随上下文长度线性增长。
  3. 框架开销:vLLM / TensorRT-LLM 等推理框架自身占用 2-5 GB

【显存需求估算】

总需求 ≈ 模型权重(GB) + 并发数 × 单请求 KV Cache(GB) + 框架开销(2-5GB)

【实例】Llama 2 7B FP16

= 14GB 权重 + 10并发 × 4K ctx (≈0.2GB/req) + 5GB 开销

≈ 21GB → 单张 24GB 卡刚好够


【实例】Llama 2 70B INT4 + Agent 场景

= 35GB 权重 + 20并发 × 32K ctx (≈1.6GB/req) + 5GB 开销

≈ 72GB → 至少需要 80GB 卡(A100 80GB / H100)

显存带宽 — 生成 token 有多快

直觉类比:带宽像书桌到大脑的高速公路。路面越宽(带宽越高),拿取信息越快。

核心洞察:LLM 推理的 decode 阶段是显存带宽密集型的——每生成一个 token,都要把整个模型权重从显存读一遍。这意味着:

每秒生成 token 数 ≈ 显存带宽 ÷ 模型权重大小

实例对比(同为 Llama 2 7B FP16,权重约 14 GB):

这就是为什么即使 L40S 的 FP16 算力数值很高(733 TFLOPS),实际推理吞吐却远不如 H100——推理不是被算力卡住的,是被带宽卡住的。选卡先看带宽。

精度格式 — 省显存和加速的关键

直觉理解:精度就像照片分辨率。FP32 是原始 RAW 文件,FP16/BF16 是高质量 JPEG,FP8 是经过优化的 WebP——肉眼几乎看不出差别但文件体积减半。INT4 更像是高度压缩的缩略图,能用但细节有损。

格式每参数字节70B 模型权重典型应用场景从哪代开始支持
FP324 bytes280 GB科学计算,AI 推理几乎不用所有
TF324 bytes(19位精度)280 GBAmpere 引入的训练加速格式,自动兼容 FP32 代码Ampere+
FP16 / BF162 bytes140 GB训练主流精度、推理基准所有
FP81 byte70 GB推理加速的关键 — 吞吐基本翻倍,精度几乎无损Hopper / Ada Lovelace+
INT81 byte70 GB经典推理量化方式所有(Turing+ 更优)
INT40.5 byte35 GB极端量化,小显存跑大模型Turing+
FP40.5 byte35 GBBlackwell 引入的原生低精度Blackwell+

FP8 是分水岭。Ampere(A100)不支持原生 FP8,这是它和 Hopper/Ada Lovelace 之间最本质的推理性能差异。用 A100 跑推理只能选 FP16(慢)或 INT8 量化(可能掉精度),而 Hopper/Ada 可以选择 FP8 获得接近无损的翻倍吞吐。

Tensor Core — AI 算力的核心引擎

直觉理解:CUDA Core 是瑞士军刀(什么都能算但效率一般),Tensor Core 是专门切面包的机器(只能做矩阵乘法但极快)。LLM 推理本质就是不停做矩阵乘法,所以 Tensor Core 的性能直接决定吞吐。

代际架构代表 GPU关键能力
第 1 代VoltaV100FP16 加速(开创性)
第 2 代TuringT4 / RTX 20INT8 / INT4 支持
第 3 代AmpereA100 / RTX 30TF32、BF16、2:4 结构化稀疏(2x 加速)
第 4 代Hopper / Ada LovelaceH100 / L40S / RTX 40FP8 原生支持、Transformer Engine(Hopper 独有)
第 5 代BlackwellB200 / RTX 50FP4 原生支持、第二代 Transformer Engine

HBM vs GDDR — 显存类型的本质差异

直觉类比:HBM 是高层公寓(多颗 DRAM 芯片 3D 垂直堆叠,高密度、高带宽、贵),GDDR 是平房区(传统 PCB 平面布线,成本低但带宽有限)。

这也是 A100(HBM2e, 2 TB/s)和 L40S(GDDR6, 864 GB/s)带宽差距的本质原因——即使 L40S 的 FP16 算力数值更高,GDDR 的物理带宽限制了它在推理场景的实际表现。

SXM vs PCIe / NVLink — 卡怎么插、怎么互联

PCIe 版本(如 H100 PCIe):标准 PCIe 插槽,功耗受限(350W),无 NVLink。适合单卡推理或小规模部署。任何标准服务器都能装。

SXM 版本(如 H100 SXM):通过 NVSwitch 底板互联的特殊接口,功耗更高(700W),带宽大幅提升(PCIe 版 2.0 TB/s vs SXM 版 3.35 TB/s),支持 8 卡 NVLink 全互联(900 GB/s 双向)。适合多卡训练和大规模推理。需要专门的 HGX 服务器主板。

对于 Agent 推理部署,单卡场景 PCIe 版即可,没必要为 SXM 多花 40% 的溢价

NVLink 代际:第 1 代(Volta, 300 GB/s)→ 第 2 代(Ampere, 600 GB/s)→ 第 3 代(Hopper, 900 GB/s)→ 第 4 代(Blackwell, 1.8 TB/s)→ 第 5 代(Rubin, 预计 6x 提升)。NVLink 决定了多 GPU 之间数据传输的上限。

MIG(Multi-Instance GPU)— 一张卡当多张用

MIG 将一张 GPU 在硬件层面切成多个独立实例,各自拥有专属的显存、缓存和计算核心。A100 最多切 7 份(每份至少 5GB),H100 同样 7 路。

对 Agent 场景的意义:如果有多个小模型(路由模型 + 嵌入模型 + 工具调用模型),可以用 MIG 在一张 H100 上同时服务 7 个独立实例,提高利用率而互不干扰。

MIG 支持情况

✅ 支持:A100、A30、H100、H200
❌ 不支持:L 系列全系、消费卡(RTX 3090/4090/5090)、T4、L4、A10、A40

主流型号全览

以下按定位分为四个层级,数据基于 NVIDIA 官方规格表与 2026 Q1/Q2 各云厂商公开报价的交叉比对。

型号 架构 显存 显存类型 带宽 FP16 TFLOPS FP8 TDP 互联 参考买断价 云租用 ($/h)
▸ 入门推理卡
T4Turing 201816GBGDDR6320 GB/s6570WPCIe 3.0~$2,500$0.40-0.60
L4Ada Lovelace 202324GBGDDR6300 GB/s121✅ 24272WPCIe 4.0~$2,000-3,000$0.44-0.80
▸ 中端多面手
A10Ampere 202124GBGDDR6600 GB/s125150WPCIe 4.0~$5,700$1.26
L20Ada Lovelace 202448GBGDDR6864 GB/s119.5✅ 239275WPCIe 4.0
A40Ampere 202048GBGDDR6696 GB/s150300WPCIe 4.0$0.22-2.14
L40Ada Lovelace 202348GBGDDR6864 GB/s362✅ 733300WPCIe 4.0
L40SAda Lovelace 202348GBGDDR6864 GB/s362 (733*稀疏)✅ 733 (1466*)350WPCIe 4.0$0.72-0.87
▸ 高性能计算卡
A100 80GBAmpere 202080GBHBM2e2,039 GB/s312 (624*)400WSXM4 / NVLink 3 (600GB/s)$10K-17K$1.29-1.49
H100 PCIeHopper 202280GBHBM32,000 GB/s1,000✅ 2,000350WPCIe 5.0 (无 NVLink)$25K-30K$2.00-3.00
H100 SXMHopper 202280GBHBM33,352 GB/s990 (1979*)✅ 1,979 (3958*)700WSXM5 / NVLink 4 (900GB/s)$35K-40K$2.25-3.12
H200 SXMHopper 2024141GBHBM3e4,800 GB/s990 (1979*)✅ 1,979 (3958*)700WSXM5 / NVLink 4 (900GB/s)$35K-50K$2.50-4.54
▸ 旗舰前沿卡
B200Blackwell 2024192GBHBM3e8,000 GB/s~3,500✅ ~9,000 (FP4)1,200WSXM6 / NVLink 5 (1.8TB/s)$45K-50K$5.19-7.43
B300Blackwell Ultra 2025288GBHBM3e8,000 GB/s~3,500✅ ~7,000 (FP8)1,400WNVLink 5 (1.8TB/s)$6.80

注:"*" 表示稀疏(Sparsity)峰值,是稠密值的 2 倍,反映 2:4 结构化稀疏加速。实际推理吞吐取决于框架优化程度和模型结构。

入门推理卡(T4 / L4)

T4(2018, Turing)已属老旧。16GB 显存只能跑 7B 模型 INT4 量化版,带宽仅 320 GB/s,且不支持 FP8。但 功耗仅 70W,云上存量巨大,价格最低($0.40-0.60/h)。适合 Whisper 语音识别、嵌入模型(Embedding)、图像分类等轻量推理任务。

L4(2023, Ada Lovelace)是 T4 的全面升级版:24GB + FP8 + 72W。在同样功耗下性能翻了几倍。适合跑 7B-13B 量化模型的小规模推理或开发测试。对于 Agent 场景,可以作为意图分类小模型、嵌入模型、Whisper 的部署载体。

中端多面手(A10 / L20 / A40 / L40S)

L20(你特别关心的型号):这是 Ada Lovelace 家族中相对低调但值得关注的卡。48GB GDDR6,864 GB/s 带宽,275W 功耗。关键数据:

指标L20L40S差异
FP3259.8 TFLOPS91.6 TFLOPSL20 约 65%
FP16 Tensor119.5 TFLOPS362 TFLOPSL20 约 33%
FP8 Tensor239 TFLOPS733 TFLOPSL20 约 33%
显存48GB48GB相同
带宽864 GB/s864 GB/s相同
TDP275W350WL20 更低
RT Core✅ 有❌ 无L20 偏图形,L40S 偏纯 AI

L20 的定位:它是 L40S 的"显存没砍、计算砍半"版本,同时保留了 RT Core(用于图形渲染和视频编解码)。可以把它理解成"48GB 大显存但计算没那么密集"的卡。适合:

A40(Ampere)是上一代中端,48GB + 696 GB/s 带宽。最大短板是不支持 FP8。如果已有 A40 集群可以继续用,新部署不建议。

L40S 是当前中端最值得关注的卡。48GB + 864 GB/s + FP8 + 350W。7B-13B 模型 FP8 推理时,性价比(tokens/sec per dollar)经常超过 H100——因为 L40S 每小时才 $0.72-0.87,而 H100 是 $2.25+。对于 Agent 系统中的工具调用模型和中等规模推理模型,L40S 是当前甜点。

L20 vs L40S 选择指南

L40S:你需要高吞吐 LLM 推理(工具调用模型、7B-13B 对话模型),FP16/FP8 吞吐优先
L20:你的工作负载是显存密集型而非计算密集型(大批量嵌入、多模态 encoding、视频处理),或者功耗预算受限(275W vs 350W)

高性能计算卡(A100 / H100 / H200)

这是当前(2026 年中)生产环境的主力区间。

A100 80GB:上一代旗舰,如今年变成了高性价比选手。80GB HBM2e + 2 TB/s,云上 spot 可到 $0.60/h。虽然不支持 FP8 是硬伤,但 80GB 显存意味着可以直接跑 70B INT4 模型。对于预算有限但需要大显存的团队,A100 依然很香。Spot 实例 $0.60/h 跑批处理推理极其划算。

H100 SXM:当前生产环境的基准选择。80GB HBM3 + 3.35 TB/s + FP8 + Transformer Engine。在 Llama 2 70B FP8 上吞吐约 253 tokens/s。云上价格已从 2024 年的 $8/h 降到 2026 年的 $2.25-3.12/h,降幅超过 60%。一卡满足大部分 7B-70B 模型的生产推理。Agent 系统的核心推理模型推荐用 H100。

H200 SXM:H100 的内存增强版——同样的 GPU 核心(算力不变),但显存从 80GB → 141GB,带宽从 3.35 → 4.8 TB/s。对于 70B+ 模型 + 长上下文(32K-128K tokens) 的 Agent 场景,H200 的额外显存避免了 KV Cache 溢出到 CPU 内存(那会严重拖慢速度)。比 H100 贵 10-20%,但在大模型长上下文场景下单位成本更低。

H100 vs H200 选择

H100:7B-34B 模型、标准上下文(<8K)、低中并发(<20)
H200:70B+ 模型、长上下文 Agent(>32K tokens)、高并发(50+)、需要大 KV Cache

旗舰前沿卡(B200 / B300)

Blackwell 架构的标志性跃进:192-288GB HBM3e + 8 TB/s 带宽。NVIDIA 宣称推理吞吐是 H100 的 11-15 倍(利用 FP4)。B200 的 FP16 性能约 3,500 TFLOPS,是 H100 的近 2 倍。2026 年中仍处于早期部署阶段,供应有限,基础设施要求高(B300 需要液冷)。大多数团队目前不需要考虑,等到 2026 年底供应稳定后再评估

B300 是首个将 FP4 推理作为一等公民的 GPU——288GB 显存意味着 8-GPU DGX B300 系统可提供 2.3 TB 总 GPU 内存,足以将 400B+ 参数模型全部放在 GPU 显存中。

消费/工作站卡

消费卡对于 AI 开发者来说是把双刃剑——性价比极高但有不少坑

型号架构显存带宽FP16 TFLOPSFP8TDP参考价
RTX 3090Ampere24GB GDDR6X936 GB/s142350W~$700-1,000 (二手)
RTX 4090Ada Lovelace24GB GDDR6X1,008 GB/s330450W~$1,600-2,000
RTX 5090Blackwell32GB GDDR71,792 GB/s575W~$2,500-3,800
RTX 6000 AdaAda Lovelace48GB GDDR6 ECC960 GB/s300W云 ~$0.67/h

消费卡的利弊分析

性价比极高

RTX 4090 的 FP16 算力接近 A100,价格只有 1/10

FP8 支持

RTX 40/50 系列支持 FP8,推理加速不输数据中心卡

无 ECC 纠错

长期运行可能产生静默数据损坏(bit flip),生产环境大忌

无 NVLink / MIG

不支持多卡高速互联和 GPU 切分,扩展性受限

驱动限制

数据中心使用 GeForce 驱动违反 NVIDIA EULA(实际很少被追究)

散热受限

主动风扇散热,不适合高密度服务器机架

结论:消费卡适合个人开发、调试、原型验证。不要用于生产环境。如果预算紧张但需要云上跑中低负载推理,选 L40S 或 A100 spot 实例更靠谱。RTX 6000 Ada(工作站卡,48GB ECC)是消费级和服务器级之间的折中选择。

Agent 开发者选型实战

Agent 场景和标准 chatbot 的核心差异:

维度标准 ChatbotAgent 系统对 GPU 选型的影响
上下文长度4K-8K tokens(单轮)32K-128K tokens(多轮 + tool 历史)KV Cache 膨胀 → 需要更大显存
单次请求推理次数1 次 forward passN 次(思考→调用工具→分析结果→再思考)总 GPU 时间 × N
模型数量1 个模型路由 + 推理 + 工具调用 + 嵌入分级部署可大幅降低成本
延迟要求宽松(2-5s 可接受)敏感(多步推理,每步慢则总延迟爆炸)需要高带宽 GPU
并发模式均匀分布突发峰值(用户触发 agent 后大量 tool call)需要预留容量弹性

选型决策三步法

Step 1 — 确定模型规模与精度

模型规模FP16 权重大小INT4/FP8 权重大小推荐 GPU
7B-13B14-26 GB7-13 GBL4 (24G) / RTX 4090 (24G) / L40S (48G)
13B-34B26-68 GB13-34 GBL40S (48G) / A100 (80G)
34B-70B68-140 GB34-70 GBA100 (80G) / H100 (80G)
70B-130B140-260 GB70-130 GBH200 (141G) / 双卡 H100
130B+ / MoE260+ GB130+ GB多卡 H200 / B200 / B300

Step 2 — 估算 KV Cache 开销(最容易被忽略的显存杀手)

  • 轻量 Agent(<10 并发,4K ctx)→ KV Cache 开销可忽略
  • 中等 Agent(20-50 并发,8K-32K ctx)→ KV Cache 可能占 10-60GB
  • 重度 Agent(50+ 并发,128K+ ctx)→ KV Cache 成为主要瓶颈,必须选 H200 或更高

Agent 系统每轮 tool calling 都会增加上下文,KV Cache 开销比 chatbot 大一个数量级。

Step 3 — 分级部署(推荐架构)

不要用一张 H100 跑所有模型。把 Agent 系统的计算分层:

  • 轻量层(意图分类、路由、嵌入)→ L4 / RTX 4090,$0.44-0.80/h
  • 执行层(工具调用、中等推理、7B-13B 生成)→ L40S / H100 PCIe,$0.72-3.00/h
  • 深度推理层(70B+ 大模型推理、长上下文)→ H100 SXM / H200,$2.25-4.54/h

分级部署的总成本远低于"全部请求打到 H200 上",且各层可以独立扩缩容。

Agent GPU Sizing 速查表

Agent 场景模型组合并发上下文总显存需求推荐配置
简单 Q&A Agent7B204K~24GB1× RTX 5090 或 L4
客服 Agent13B (GQA)508K~90GB1× H200
复杂推理 Agent70B1032K~280GB4× H100 SXM 或 3× H200
Orchestrator + 3 Sub-agents7B + 3×7B各 104K~80GB2× H100 PCIe
多模态 Agent(图文理解)13B Vision208K~60GB1× H100 或 2× L40S

数据来源:Spheron GPU Infrastructure for AI Agents 2026 报告中的推荐配置,已根据 2026 Q2 主流模型规模调整。

成本估算模型

以下是各主流 GPU 在 Llama 2 70B 推理下的成本对比:

GPU云时价 ($/h)吞吐 (tokens/s)每百万 token 成本日处理请求数*
A100 80GB PCIe$1.35~116~$3.23~11,000
L40S$0.87~70~$3.46~6,000
H100 SXM$2.25~253~$2.47~22,000
H200 SXM$3.80~360~$2.93~31,000

* 每次请求 1024 tokens。数据来源:CUDO Compute 和 Spheron 2025-2026 年公开基准测试(vLLM + Llama 2 70B FP8)。实际值受 batch size、输入/输出长度分布、框架版本影响。

💡 成本优化三板斧

  1. FP8 量化:吞吐 ↑2x ≈ 单位成本 ↓50%。这是选 Hopper/Ada 而非 Ampere 的核心经济学理由。A100 无 FP8,在 FP16 下每百万 token $3.23,H100 在 FP8 下仅 $2.47——H100 单价更高但单位成本反而更低
  2. Spot / 抢占实例:H100 spot 可低至 $0.34/h(Vast.ai)。适合批处理和离线评估,不适合在线服务(可能随时被回收)。用 spot 跑 nightly evaluation 可以省 80%+。
  3. 分级计算:轻量模型用便宜卡(L4 $0.44/h),只有核心推理用旗舰卡(H100 $2.25/h)。一个每天 10,000 次 Agent 调用的系统,如果 80% 的路由和工具调用用 L4/L40S 处理,总成本可以降到全 H100 方案的 40%。

Agent 单次调用成本速算

一个典型 Agent 请求的推理链路:用户提问 → 路由模型(1 次)→ 推理模型思考 + 调用工具 + 分析 + 再思考(5-10 次)→ 生成回答(1 次)。共 7-12 次推理,每次约 1024 tokens,总计约 10,000 tokens。

GPU每百万 token单次 Agent 调用成本10,000 次/天100,000 次/天
L40S$3.46$0.035$346/天$3,460/天
H100 SXM$2.47$0.025$247/天$2,470/天
H200 SXM$2.93$0.029$293/天$2,930/天
A100 80GB$3.23$0.032$323/天$3,230/天

结论:H100 虽然每小时租金最贵(除 H200 外),但因为 FP8 吞吐高,单位 token 成本反而最低。这是理解 GPU 选型经济学的关键——比价不看每小时单价,看每个 token 的成本。

未来路线图

NVIDIA 在 GTC 2026 上公布了最新的数据中心路线图:

时间架构代号代表产品关键提升
2026 H2 Vera Rubin Vera CPU + Rubin GPU (NVL144) FP4 推理 3.6 ExaFLOPS/机架,HBM4,NVLink 6,144 GPU/机架
2027 H2 Rubin Ultra R300 GPU (NVL576, "Kyber" 机架) 四 GPU die 封装,1TB HBM4e,FP4 15 ExaFLOPS/机架,576 GPU/机架
2028 Feynman 下一代 GPU + Rosa CPU 3D 堆叠技术,LP40 内存,NVLink 8,BlueField-5 DPU

趋势很明确:NVIDIA 正在从"卖 GPU 芯片"转向"卖机架级 AI 计算系统"。每一代机架 GPU 数量翻倍、功耗和冷却要求越来越高。对大多数 Agent 开发团队来说,关注云上可用的最新一代 GPU 实例即可,不需要跟机架级系统的发布节奏。真正的拐点是各云厂商什么时候把新 GPU 上架并提供有竞争力的价格。历史经验:H100 从发布到价格稳定花了约 18 个月(2023 → 2025 年中)。Blackwell 大概也差不多。

小结与行动建议

  1. 理解代际:当前活跃的三代是 Ampere(A100)→ Hopper / Ada Lovelace(H100/H200 / L40S/L20)→ Blackwell(B200/B300/RTX 5090)。你遇到的绝大多数 GPU 不会超出这范围。
  2. 推理选卡口诀:先看显存,再看带宽,最后看算力。推理是带宽密集型,不是算力密集型。48GB + 高带宽的卡往往比 80GB + 低带宽的卡跑得更快。
  3. FP8 是分水岭,也是换代理由。Ampere 不支持 FP8 → 推理效率落后一代。Hopper / Ada Lovelace 都支持 FP8 → 吞吐翻倍、成本减半。2026 年新部署不应再选 Ampere 架构。
  4. 消费卡适合开发,不适合生产。RTX 4090 跑原型完全够用,但生产环境缺少 ECC、NVLink、MIG 和服务器级驱动。
  5. 分级部署是最优解。Agent 系统用不同档次的 GPU 服务不同层级的模型,总成本远低于"全部上旗舰"。
  6. 价格在降,不要签长约。H100 云价从 $8/h 降到 $2.50/h 只用了一年多。Blackwell 放量后会进一步挤压老卡价格。

📚 进一步学习建议

  • 在 GPU 云平台上租一张 L40S 或 H100(按分钟计费),亲手跑 vLLM 部署一个 7B 模型,测量实际吞吐和延迟
  • 用 vLLM 的 --quantization fp8 参数对比 FP16 vs FP8 的实际差异
  • 关注 Blackboard 等 GPU 性能基准测试平台的持续更新
  • 定期查看 GPU 云比价平台(如 Spheron、CUDO Compute)了解最新价格趋势

最后更新:2026 年 6 月 · 数据来源:NVIDIA 官方规格表、GMI Cloud、JarvisLabs、Lambda Labs、CUDO Compute、Spheron、RunPod、Vast.ai 公开报价与基准测试(2026 Q1-Q2)。所有价格均为截取时的参考值,实时波动请以各平台最新报价为准。