NVIDIA GPU 选型指南 — 代际、规格、成本全解析

📌 阅读提示

本文面向 Agent 开发工程师，聚焦于 LLM 推理部署 场景。训练、HPC、图形渲染等其他场景仅作简要提及。所有价格数据来自 2026 年 Q1/Q2 多个云厂商公开报价的交叉比对，但 GPU 市场波动剧烈，请以实际询价为准。

一句话摘要

NVIDIA 数据中心 GPU 按架构分代（Ampere → Ada Lovelace / Hopper → Blackwell），按定位分四级（入门 / 中端 / 高性能 / 旗舰）。作为 Agent 开发者，选 GPU 本质上是选三件事：显存够不够装你的模型、带宽够不够快、每小时花多少钱。当前（2026 年中）的性价比甜点是 H100 跑生产、L40S 跑中等规模推理、H200 跑大模型 + 长上下文。

为什么 Agent 开发者需要了解 GPU

你可能会问：我只是调 API 写 Agent 逻辑的，为什么要关心 GPU？三个原因：

私有化部署：客户可能要求模型部署在自己的 GPU 集群上，你需要能判断"这配置够不够跑"。
成本估算：Agent 系统往往涉及多模型协作（路由模型 + 工具调用模型 + 推理模型），每一步都在消耗 GPU 算力。你需要估算单次调用的实际成本。
性能优化：Agent 场景的特殊性（多轮对话、长上下文、高频 tool calling）使得 GPU 选型不同于普通聊天机器人，上下文越长对显存的压力越大。

Agent 场景 vs 普通 LLM 推理的区别

更长的上下文：Agent 需要保留多轮 tool calling 历史，动辄 32K-128K tokens，KV Cache 开销远大于单轮对话
多模型协同：路由模型（小）+ 推理模型（大）+ 工具模型，不同卡跑不同模型是成本最优解
突发并发：用户请求不是均匀分布的，需要考虑峰值并发的 GPU 容量

架构代际关系

NVIDIA GPU 的核心是架构（Architecture）。每一代架构带来新的制程工艺、新的 Tensor Core 代数、新的数值精度支持。理解代际关系是理解所有型号的钥匙。

直觉类比：架构就像汽车的底盘平台。同一个底盘可以造出家用轿车（消费卡）、商务车（工作站卡）、卡车（数据中心计算卡）。A100（Ampere）和 RTX 3090（Ampere）共享同一套设计理念，但硬件配置和驱动调校完全不同。

2016

Pascal

P100

2017

Volta

V100 · 首代 Tensor Core

2018

Turing

T4 · 首代 RT Core

2020

Ampere

A100 · MIG · TF32

2022

Ada Lovelace

L40S · RTX 4090 · FP8

2022

Hopper

H100 · Transformer Engine

2024-2025

Blackwell

B200 · B300 · FP4

2026

Rubin

Vera Rubin NVL144

2028

Feynman

路线图中

关键分叉：数据中心线 vs 消费线

从 Ampere 开始，NVIDIA 明确将同一代架构分成两条线：

代际	数据中心线（AI/HPC）	消费/工作站线（游戏/渲染）	共享特性
Ampere (2020)	A100 (GA100)、A40、A10	RTX 3090 (GA102)、RTX 3080	第 3 代 Tensor Core、TF32、MIG（仅 A100/A30）
Ada Lovelace (2022)	L40S、L40、L20、L4	RTX 4090 (AD102)、RTX 4080	第 4 代 Tensor Core、FP8、AV1 编码
Hopper (2022)	H100、H200（纯数据中心，无消费对应）	—	Transformer Engine、FP8、DPX 指令、第 4 代 Tensor Core
Blackwell (2024-2025)	B200、B300、GB300 NVL72	RTX 5090 (GB202)	第 5 代 Tensor Core、FP4、第二代 Transformer Engine

🧠 关键认知：Ada Lovelace 和 Hopper 的关系

Ada Lovelace 和 Hopper 是同一代（2022）的两个分支，不是先后关系。Ada Lovelace 面向图形+AI 混合场景（L 系列、RTX 40 系列），Hopper 是纯 AI/HPC 加速器（H 系列）。两者共享第 4 代 Tensor Core 和 FP8 支持，但 Hopper 独有 Transformer Engine（能自动在 FP8/FP16 间切换以优化精度和速度），并且因为使用 HBM 显存，带宽远超 Ada 的 GDDR。

核心概念速通

在进入具体型号前，先建立几个关键概念。这些是理解"为什么某些 GPU 适合某些场景"的底层逻辑。每个概念都附带直觉理解，帮助你建立心理模型。

显存（VRAM）— 能装多大的模型

直觉类比：显存像书桌大小。桌子太小，连一本书都摊不开；桌子够大，你可以同时摆好几本书来回翻。

LLM 推理中，显存被三样东西占据：

模型权重：参数量 × 每参数字节数。70B 参数 FP16 精度 ≈ 140 GB（70B × 2 bytes）
KV Cache：推理时缓存的 Key 和 Value。估算公式：
2 × num_layers × num_kv_heads × head_dim × seq_length × bytes_per_element
对于 Llama 2 70B FP16 KV + 4K 上下文：每个并发请求约 0.4 GB；32 并发约 13 GB；32K 上下文约 100 GB
这就是为什么长上下文 Agent 场景特别吃显存——KV Cache 随上下文长度线性增长。
框架开销：vLLM / TensorRT-LLM 等推理框架自身占用 2-5 GB

【显存需求估算】

总需求 ≈ 模型权重(GB) + 并发数 × 单请求 KV Cache(GB) + 框架开销(2-5GB)

【实例】Llama 2 7B FP16

= 14GB 权重 + 10并发 × 4K ctx (≈0.2GB/req) + 5GB 开销

≈ 21GB → 单张 24GB 卡刚好够

【实例】Llama 2 70B INT4 + Agent 场景

= 35GB 权重 + 20并发 × 32K ctx (≈1.6GB/req) + 5GB 开销

≈ 72GB → 至少需要 80GB 卡（A100 80GB / H100）

显存带宽 — 生成 token 有多快

直觉类比：带宽像书桌到大脑的高速公路。路面越宽（带宽越高），拿取信息越快。

核心洞察：LLM 推理的 decode 阶段是显存带宽密集型的——每生成一个 token，都要把整个模型权重从显存读一遍。这意味着：

每秒生成 token 数 ≈ 显存带宽 ÷ 模型权重大小

实例对比（同为 Llama 2 7B FP16，权重约 14 GB）：

A100 80GB（2 TB/s 带宽）→ 理论 ~140 tokens/s
H100 SXM（3.35 TB/s 带宽）→ 理论 ~240 tokens/s
L40S（864 GB/s 带宽）→ 理论 ~60 tokens/s

这就是为什么即使 L40S 的 FP16 算力数值很高（733 TFLOPS），实际推理吞吐却远不如 H100——推理不是被算力卡住的，是被带宽卡住的。选卡先看带宽。

精度格式 — 省显存和加速的关键

直觉理解：精度就像照片分辨率。FP32 是原始 RAW 文件，FP16/BF16 是高质量 JPEG，FP8 是经过优化的 WebP——肉眼几乎看不出差别但文件体积减半。INT4 更像是高度压缩的缩略图，能用但细节有损。

格式	每参数字节	70B 模型权重	典型应用场景	从哪代开始支持
FP32	4 bytes	280 GB	科学计算，AI 推理几乎不用	所有
TF32	4 bytes（19位精度）	280 GB	Ampere 引入的训练加速格式，自动兼容 FP32 代码	Ampere+
FP16 / BF16	2 bytes	140 GB	训练主流精度、推理基准	所有
FP8	1 byte	70 GB	推理加速的关键 — 吞吐基本翻倍，精度几乎无损	Hopper / Ada Lovelace+
INT8	1 byte	70 GB	经典推理量化方式	所有（Turing+ 更优）
INT4	0.5 byte	35 GB	极端量化，小显存跑大模型	Turing+
FP4	0.5 byte	35 GB	Blackwell 引入的原生低精度	Blackwell+

FP8 是分水岭。Ampere（A100）不支持原生 FP8，这是它和 Hopper/Ada Lovelace 之间最本质的推理性能差异。用 A100 跑推理只能选 FP16（慢）或 INT8 量化（可能掉精度），而 Hopper/Ada 可以选择 FP8 获得接近无损的翻倍吞吐。

Tensor Core — AI 算力的核心引擎

直觉理解：CUDA Core 是瑞士军刀（什么都能算但效率一般），Tensor Core 是专门切面包的机器（只能做矩阵乘法但极快）。LLM 推理本质就是不停做矩阵乘法，所以 Tensor Core 的性能直接决定吞吐。

代际	架构	代表 GPU	关键能力
第 1 代	Volta	V100	FP16 加速（开创性）
第 2 代	Turing	T4 / RTX 20	INT8 / INT4 支持
第 3 代	Ampere	A100 / RTX 30	TF32、BF16、2:4 结构化稀疏（2x 加速）
第 4 代	Hopper / Ada Lovelace	H100 / L40S / RTX 40	FP8 原生支持、Transformer Engine（Hopper 独有）
第 5 代	Blackwell	B200 / RTX 50	FP4 原生支持、第二代 Transformer Engine

HBM vs GDDR — 显存类型的本质差异

直觉类比：HBM 是高层公寓（多颗 DRAM 芯片 3D 垂直堆叠，高密度、高带宽、贵），GDDR 是平房区（传统 PCB 平面布线，成本低但带宽有限）。

HBM（High Bandwidth Memory）：多颗 DRAM 芯片通过硅中介层（Interposer）3D 堆叠连接 GPU 核心。带宽极高（2-8 TB/s），但制造难度大、成本昂贵。仅用于旗舰数据中心 GPU：A100（HBM2e）、H100（HBM3）、H200（HBM3e）、B200（HBM3e）
GDDR（Graphics Double Data Rate）：传统 PCB 走线连接，带宽中低（300-960 GB/s），但便宜、良率高。广泛用于消费卡和中端数据中心卡

这也是 A100（HBM2e, 2 TB/s）和 L40S（GDDR6, 864 GB/s）带宽差距的本质原因——即使 L40S 的 FP16 算力数值更高，GDDR 的物理带宽限制了它在推理场景的实际表现。

SXM vs PCIe / NVLink — 卡怎么插、怎么互联

PCIe 版本（如 H100 PCIe）：标准 PCIe 插槽，功耗受限（350W），无 NVLink。适合单卡推理或小规模部署。任何标准服务器都能装。

SXM 版本（如 H100 SXM）：通过 NVSwitch 底板互联的特殊接口，功耗更高（700W），带宽大幅提升（PCIe 版 2.0 TB/s vs SXM 版 3.35 TB/s），支持 8 卡 NVLink 全互联（900 GB/s 双向）。适合多卡训练和大规模推理。需要专门的 HGX 服务器主板。

对于 Agent 推理部署，单卡场景 PCIe 版即可，没必要为 SXM 多花 40% 的溢价。

NVLink 代际：第 1 代（Volta, 300 GB/s）→ 第 2 代（Ampere, 600 GB/s）→ 第 3 代（Hopper, 900 GB/s）→ 第 4 代（Blackwell, 1.8 TB/s）→ 第 5 代（Rubin, 预计 6x 提升）。NVLink 决定了多 GPU 之间数据传输的上限。

MIG（Multi-Instance GPU）— 一张卡当多张用

MIG 将一张 GPU 在硬件层面切成多个独立实例，各自拥有专属的显存、缓存和计算核心。A100 最多切 7 份（每份至少 5GB），H100 同样 7 路。

对 Agent 场景的意义：如果有多个小模型（路由模型 + 嵌入模型 + 工具调用模型），可以用 MIG 在一张 H100 上同时服务 7 个独立实例，提高利用率而互不干扰。

MIG 支持情况

✅ 支持：A100、A30、H100、H200
❌ 不支持：L 系列全系、消费卡（RTX 3090/4090/5090）、T4、L4、A10、A40

主流型号全览

以下按定位分为四个层级，数据基于 NVIDIA 官方规格表与 2026 Q1/Q2 各云厂商公开报价的交叉比对。

型号	架构	显存	显存类型	带宽	FP16 TFLOPS	FP8	TDP	互联	参考买断价	云租用 ($/h)
▸ 入门推理卡
T4	Turing 2018	16GB	GDDR6	320 GB/s	65	—	70W	PCIe 3.0	~$2,500	$0.40-0.60
L4	Ada Lovelace 2023	24GB	GDDR6	300 GB/s	121	✅ 242	72W	PCIe 4.0	~$2,000-3,000	$0.44-0.80
▸ 中端多面手
A10	Ampere 2021	24GB	GDDR6	600 GB/s	125	—	150W	PCIe 4.0	~$5,700	$1.26
L20	Ada Lovelace 2024	48GB	GDDR6	864 GB/s	119.5	✅ 239	275W	PCIe 4.0	—	—
A40	Ampere 2020	48GB	GDDR6	696 GB/s	150	—	300W	PCIe 4.0	—	$0.22-2.14
L40	Ada Lovelace 2023	48GB	GDDR6	864 GB/s	362	✅ 733	300W	PCIe 4.0	—	—
L40S	Ada Lovelace 2023	48GB	GDDR6	864 GB/s	362 (733*稀疏)	✅ 733 (1466*)	350W	PCIe 4.0	—	$0.72-0.87
▸ 高性能计算卡
A100 80GB	Ampere 2020	80GB	HBM2e	2,039 GB/s	312 (624*)	—	400W	SXM4 / NVLink 3 (600GB/s)	$10K-17K	$1.29-1.49
H100 PCIe	Hopper 2022	80GB	HBM3	2,000 GB/s	1,000	✅ 2,000	350W	PCIe 5.0 (无 NVLink)	$25K-30K	$2.00-3.00
H100 SXM	Hopper 2022	80GB	HBM3	3,352 GB/s	990 (1979*)	✅ 1,979 (3958*)	700W	SXM5 / NVLink 4 (900GB/s)	$35K-40K	$2.25-3.12
H200 SXM	Hopper 2024	141GB	HBM3e	4,800 GB/s	990 (1979*)	✅ 1,979 (3958*)	700W	SXM5 / NVLink 4 (900GB/s)	$35K-50K	$2.50-4.54
▸ 旗舰前沿卡
B200	Blackwell 2024	192GB	HBM3e	8,000 GB/s	~3,500	✅ ~9,000 (FP4)	1,200W	SXM6 / NVLink 5 (1.8TB/s)	$45K-50K	$5.19-7.43
B300	Blackwell Ultra 2025	288GB	HBM3e	8,000 GB/s	~3,500	✅ ~7,000 (FP8)	1,400W	NVLink 5 (1.8TB/s)	—	$6.80

注："*" 表示稀疏（Sparsity）峰值，是稠密值的 2 倍，反映 2:4 结构化稀疏加速。实际推理吞吐取决于框架优化程度和模型结构。

入门推理卡（T4 / L4）

T4（2018, Turing）已属老旧。16GB 显存只能跑 7B 模型 INT4 量化版，带宽仅 320 GB/s，且不支持 FP8。但 功耗仅 70W，云上存量巨大，价格最低（$0.40-0.60/h）。适合 Whisper 语音识别、嵌入模型（Embedding）、图像分类等轻量推理任务。

L4（2023, Ada Lovelace）是 T4 的全面升级版：24GB + FP8 + 72W。在同样功耗下性能翻了几倍。适合跑 7B-13B 量化模型的小规模推理或开发测试。对于 Agent 场景，可以作为意图分类小模型、嵌入模型、Whisper 的部署载体。

中端多面手（A10 / L20 / A40 / L40S）

L20（你特别关心的型号）：这是 Ada Lovelace 家族中相对低调但值得关注的卡。48GB GDDR6，864 GB/s 带宽，275W 功耗。关键数据：

指标	L20	L40S	差异
FP32	59.8 TFLOPS	91.6 TFLOPS	L20 约 65%
FP16 Tensor	119.5 TFLOPS	362 TFLOPS	L20 约 33%
FP8 Tensor	239 TFLOPS	733 TFLOPS	L20 约 33%
显存	48GB	48GB	相同
带宽	864 GB/s	864 GB/s	相同
TDP	275W	350W	L20 更低
RT Core	✅ 有	❌ 无	L20 偏图形，L40S 偏纯 AI

L20 的定位：它是 L40S 的"显存没砍、计算砍半"版本，同时保留了 RT Core（用于图形渲染和视频编解码）。可以把它理解成"48GB 大显存但计算没那么密集"的卡。适合：

多模态模型（图文理解）推理——需要大显存放图像 encoding 结果
RAG 场景——嵌入生成 + 重排序，对计算要求不高但对显存要求高
视频 + AI 混合场景——需要 AV1 硬件编解码能力

A40（Ampere）是上一代中端，48GB + 696 GB/s 带宽。最大短板是不支持 FP8。如果已有 A40 集群可以继续用，新部署不建议。

L40S 是当前中端最值得关注的卡。48GB + 864 GB/s + FP8 + 350W。7B-13B 模型 FP8 推理时，性价比（tokens/sec per dollar）经常超过 H100——因为 L40S 每小时才 $0.72-0.87，而 H100 是 $2.25+。对于 Agent 系统中的工具调用模型和中等规模推理模型，L40S 是当前甜点。

L20 vs L40S 选择指南

选 L40S：你需要高吞吐 LLM 推理（工具调用模型、7B-13B 对话模型），FP16/FP8 吞吐优先
选 L20：你的工作负载是显存密集型而非计算密集型（大批量嵌入、多模态 encoding、视频处理），或者功耗预算受限（275W vs 350W）

高性能计算卡（A100 / H100 / H200）

这是当前（2026 年中）生产环境的主力区间。

A100 80GB：上一代旗舰，如今年变成了高性价比选手。80GB HBM2e + 2 TB/s，云上 spot 可到 $0.60/h。虽然不支持 FP8 是硬伤，但 80GB 显存意味着可以直接跑 70B INT4 模型。对于预算有限但需要大显存的团队，A100 依然很香。Spot 实例 $0.60/h 跑批处理推理极其划算。

H100 SXM：当前生产环境的基准选择。80GB HBM3 + 3.35 TB/s + FP8 + Transformer Engine。在 Llama 2 70B FP8 上吞吐约 253 tokens/s。云上价格已从 2024 年的 $8/h 降到 2026 年的 $2.25-3.12/h，降幅超过 60%。一卡满足大部分 7B-70B 模型的生产推理。Agent 系统的核心推理模型推荐用 H100。

H200 SXM：H100 的内存增强版——同样的 GPU 核心（算力不变），但显存从 80GB → 141GB，带宽从 3.35 → 4.8 TB/s。对于 70B+ 模型 + 长上下文（32K-128K tokens） 的 Agent 场景，H200 的额外显存避免了 KV Cache 溢出到 CPU 内存（那会严重拖慢速度）。比 H100 贵 10-20%，但在大模型长上下文场景下单位成本更低。

H100 vs H200 选择

选 H100：7B-34B 模型、标准上下文（<8K）、低中并发（<20）
选 H200：70B+ 模型、长上下文 Agent（>32K tokens）、高并发（50+）、需要大 KV Cache

旗舰前沿卡（B200 / B300）

Blackwell 架构的标志性跃进：192-288GB HBM3e + 8 TB/s 带宽。NVIDIA 宣称推理吞吐是 H100 的 11-15 倍（利用 FP4）。B200 的 FP16 性能约 3,500 TFLOPS，是 H100 的近 2 倍。2026 年中仍处于早期部署阶段，供应有限，基础设施要求高（B300 需要液冷）。大多数团队目前不需要考虑，等到 2026 年底供应稳定后再评估。

B300 是首个将 FP4 推理作为一等公民的 GPU——288GB 显存意味着 8-GPU DGX B300 系统可提供 2.3 TB 总 GPU 内存，足以将 400B+ 参数模型全部放在 GPU 显存中。

消费/工作站卡

消费卡对于 AI 开发者来说是把双刃剑——性价比极高但有不少坑。

型号	架构	显存	带宽	FP16 TFLOPS	FP8	TDP	参考价
RTX 3090	Ampere	24GB GDDR6X	936 GB/s	142	—	350W	~$700-1,000 (二手)
RTX 4090	Ada Lovelace	24GB GDDR6X	1,008 GB/s	330	✅	450W	~$1,600-2,000
RTX 5090	Blackwell	32GB GDDR7	1,792 GB/s	—	✅	575W	~$2,500-3,800
RTX 6000 Ada	Ada Lovelace	48GB GDDR6 ECC	960 GB/s	—	✅	300W	云 ~$0.67/h

消费卡的利弊分析：

✅

性价比极高

RTX 4090 的 FP16 算力接近 A100，价格只有 1/10

✅

FP8 支持

RTX 40/50 系列支持 FP8，推理加速不输数据中心卡

❌

无 ECC 纠错

长期运行可能产生静默数据损坏（bit flip），生产环境大忌

❌

无 NVLink / MIG

不支持多卡高速互联和 GPU 切分，扩展性受限

❌

驱动限制

数据中心使用 GeForce 驱动违反 NVIDIA EULA（实际很少被追究）

❌

散热受限

主动风扇散热，不适合高密度服务器机架

结论：消费卡适合个人开发、调试、原型验证。不要用于生产环境。如果预算紧张但需要云上跑中低负载推理，选 L40S 或 A100 spot 实例更靠谱。RTX 6000 Ada（工作站卡，48GB ECC）是消费级和服务器级之间的折中选择。

Agent 开发者选型实战

Agent 场景和标准 chatbot 的核心差异：

维度	标准 Chatbot	Agent 系统	对 GPU 选型的影响
上下文长度	4K-8K tokens（单轮）	32K-128K tokens（多轮 + tool 历史）	KV Cache 膨胀 → 需要更大显存
单次请求推理次数	1 次 forward pass	N 次（思考→调用工具→分析结果→再思考）	总 GPU 时间 × N
模型数量	1 个模型	路由 + 推理 + 工具调用 + 嵌入	分级部署可大幅降低成本
延迟要求	宽松（2-5s 可接受）	敏感（多步推理，每步慢则总延迟爆炸）	需要高带宽 GPU
并发模式	均匀分布	突发峰值（用户触发 agent 后大量 tool call）	需要预留容量弹性

选型决策三步法

Step 1 — 确定模型规模与精度

模型规模	FP16 权重大小	INT4/FP8 权重大小	推荐 GPU
7B-13B	14-26 GB	7-13 GB	L4 (24G) / RTX 4090 (24G) / L40S (48G)
13B-34B	26-68 GB	13-34 GB	L40S (48G) / A100 (80G)
34B-70B	68-140 GB	34-70 GB	A100 (80G) / H100 (80G)
70B-130B	140-260 GB	70-130 GB	H200 (141G) / 双卡 H100
130B+ / MoE	260+ GB	130+ GB	多卡 H200 / B200 / B300

Step 2 — 估算 KV Cache 开销（最容易被忽略的显存杀手）

轻量 Agent（<10 并发，4K ctx）→ KV Cache 开销可忽略
中等 Agent（20-50 并发，8K-32K ctx）→ KV Cache 可能占 10-60GB
重度 Agent（50+ 并发，128K+ ctx）→ KV Cache 成为主要瓶颈，必须选 H200 或更高

Agent 系统每轮 tool calling 都会增加上下文，KV Cache 开销比 chatbot 大一个数量级。

Step 3 — 分级部署（推荐架构）

不要用一张 H100 跑所有模型。把 Agent 系统的计算分层：

轻量层（意图分类、路由、嵌入）→ L4 / RTX 4090，$0.44-0.80/h
执行层（工具调用、中等推理、7B-13B 生成）→ L40S / H100 PCIe，$0.72-3.00/h
深度推理层（70B+ 大模型推理、长上下文）→ H100 SXM / H200，$2.25-4.54/h

分级部署的总成本远低于"全部请求打到 H200 上"，且各层可以独立扩缩容。

Agent GPU Sizing 速查表

Agent 场景	模型组合	并发	上下文	总显存需求	推荐配置
简单 Q&A Agent	7B	20	4K	~24GB	1× RTX 5090 或 L4
客服 Agent	13B (GQA)	50	8K	~90GB	1× H200
复杂推理 Agent	70B	10	32K	~280GB	4× H100 SXM 或 3× H200
Orchestrator + 3 Sub-agents	7B + 3×7B	各 10	4K	~80GB	2× H100 PCIe
多模态 Agent（图文理解）	13B Vision	20	8K	~60GB	1× H100 或 2× L40S

数据来源：Spheron GPU Infrastructure for AI Agents 2026 报告中的推荐配置，已根据 2026 Q2 主流模型规模调整。

成本估算模型

以下是各主流 GPU 在 Llama 2 70B 推理下的成本对比：

GPU	云时价 ($/h)	吞吐 (tokens/s)	每百万 token 成本	日处理请求数*
A100 80GB PCIe	$1.35	~116	~$3.23	~11,000
L40S	$0.87	~70	~$3.46	~6,000
H100 SXM	$2.25	~253	~$2.47	~22,000
H200 SXM	$3.80	~360	~$2.93	~31,000

* 每次请求 1024 tokens。数据来源：CUDO Compute 和 Spheron 2025-2026 年公开基准测试（vLLM + Llama 2 70B FP8）。实际值受 batch size、输入/输出长度分布、框架版本影响。

💡 成本优化三板斧

FP8 量化：吞吐 ↑2x ≈ 单位成本 ↓50%。这是选 Hopper/Ada 而非 Ampere 的核心经济学理由。A100 无 FP8，在 FP16 下每百万 token $3.23，H100 在 FP8 下仅 $2.47——H100 单价更高但单位成本反而更低。
Spot / 抢占实例：H100 spot 可低至 $0.34/h（Vast.ai）。适合批处理和离线评估，不适合在线服务（可能随时被回收）。用 spot 跑 nightly evaluation 可以省 80%+。
分级计算：轻量模型用便宜卡（L4 $0.44/h），只有核心推理用旗舰卡（H100 $2.25/h）。一个每天 10,000 次 Agent 调用的系统，如果 80% 的路由和工具调用用 L4/L40S 处理，总成本可以降到全 H100 方案的 40%。

Agent 单次调用成本速算

一个典型 Agent 请求的推理链路：用户提问 → 路由模型（1 次）→ 推理模型思考 + 调用工具 + 分析 + 再思考（5-10 次）→ 生成回答（1 次）。共 7-12 次推理，每次约 1024 tokens，总计约 10,000 tokens。

GPU	每百万 token	单次 Agent 调用成本	10,000 次/天	100,000 次/天
L40S	$3.46	$0.035	$346/天	$3,460/天
H100 SXM	$2.47	$0.025	$247/天	$2,470/天
H200 SXM	$2.93	$0.029	$293/天	$2,930/天
A100 80GB	$3.23	$0.032	$323/天	$3,230/天

结论：H100 虽然每小时租金最贵（除 H200 外），但因为 FP8 吞吐高，单位 token 成本反而最低。这是理解 GPU 选型经济学的关键——比价不看每小时单价，看每个 token 的成本。

未来路线图

NVIDIA 在 GTC 2026 上公布了最新的数据中心路线图：

时间	架构代号	代表产品	关键提升
2026 H2	Vera Rubin	Vera CPU + Rubin GPU (NVL144)	FP4 推理 3.6 ExaFLOPS/机架，HBM4，NVLink 6，144 GPU/机架
2027 H2	Rubin Ultra	R300 GPU (NVL576, "Kyber" 机架)	四 GPU die 封装，1TB HBM4e，FP4 15 ExaFLOPS/机架，576 GPU/机架
2028	Feynman	下一代 GPU + Rosa CPU	3D 堆叠技术，LP40 内存，NVLink 8，BlueField-5 DPU

趋势很明确：NVIDIA 正在从"卖 GPU 芯片"转向"卖机架级 AI 计算系统"。每一代机架 GPU 数量翻倍、功耗和冷却要求越来越高。对大多数 Agent 开发团队来说，关注云上可用的最新一代 GPU 实例即可，不需要跟机架级系统的发布节奏。真正的拐点是各云厂商什么时候把新 GPU 上架并提供有竞争力的价格。历史经验：H100 从发布到价格稳定花了约 18 个月（2023 → 2025 年中）。Blackwell 大概也差不多。

小结与行动建议

理解代际：当前活跃的三代是 Ampere（A100）→ Hopper / Ada Lovelace（H100/H200 / L40S/L20）→ Blackwell（B200/B300/RTX 5090）。你遇到的绝大多数 GPU 不会超出这范围。
推理选卡口诀：先看显存，再看带宽，最后看算力。推理是带宽密集型，不是算力密集型。48GB + 高带宽的卡往往比 80GB + 低带宽的卡跑得更快。
FP8 是分水岭，也是换代理由。Ampere 不支持 FP8 → 推理效率落后一代。Hopper / Ada Lovelace 都支持 FP8 → 吞吐翻倍、成本减半。2026 年新部署不应再选 Ampere 架构。
消费卡适合开发，不适合生产。RTX 4090 跑原型完全够用，但生产环境缺少 ECC、NVLink、MIG 和服务器级驱动。
分级部署是最优解。Agent 系统用不同档次的 GPU 服务不同层级的模型，总成本远低于"全部上旗舰"。
价格在降，不要签长约。H100 云价从 $8/h 降到 $2.50/h 只用了一年多。Blackwell 放量后会进一步挤压老卡价格。

📚 进一步学习建议

在 GPU 云平台上租一张 L40S 或 H100（按分钟计费），亲手跑 vLLM 部署一个 7B 模型，测量实际吞吐和延迟
用 vLLM 的 --quantization fp8 参数对比 FP16 vs FP8 的实际差异
关注 Blackboard 等 GPU 性能基准测试平台的持续更新
定期查看 GPU 云比价平台（如 Spheron、CUDO Compute）了解最新价格趋势