代际关系、规格参数、部署成本 — Agent 开发者视角的 GPU 知识体系
📌 阅读提示
本文面向 Agent 开发工程师,聚焦于 LLM 推理部署 场景。训练、HPC、图形渲染等其他场景仅作简要提及。所有价格数据来自 2026 年 Q1/Q2 多个云厂商公开报价的交叉比对,但 GPU 市场波动剧烈,请以实际询价为准。
NVIDIA 数据中心 GPU 按架构分代(Ampere → Ada Lovelace / Hopper → Blackwell),按定位分四级(入门 / 中端 / 高性能 / 旗舰)。作为 Agent 开发者,选 GPU 本质上是选三件事:显存够不够装你的模型、带宽够不够快、每小时花多少钱。当前(2026 年中)的性价比甜点是 H100 跑生产、L40S 跑中等规模推理、H200 跑大模型 + 长上下文。
你可能会问:我只是调 API 写 Agent 逻辑的,为什么要关心 GPU?三个原因:
Agent 场景 vs 普通 LLM 推理的区别
NVIDIA GPU 的核心是架构(Architecture)。每一代架构带来新的制程工艺、新的 Tensor Core 代数、新的数值精度支持。理解代际关系是理解所有型号的钥匙。
直觉类比:架构就像汽车的底盘平台。同一个底盘可以造出家用轿车(消费卡)、商务车(工作站卡)、卡车(数据中心计算卡)。A100(Ampere)和 RTX 3090(Ampere)共享同一套设计理念,但硬件配置和驱动调校完全不同。
从 Ampere 开始,NVIDIA 明确将同一代架构分成两条线:
| 代际 | 数据中心线(AI/HPC) | 消费/工作站线(游戏/渲染) | 共享特性 |
|---|---|---|---|
| Ampere (2020) | A100 (GA100)、A40、A10 | RTX 3090 (GA102)、RTX 3080 | 第 3 代 Tensor Core、TF32、MIG(仅 A100/A30) |
| Ada Lovelace (2022) | L40S、L40、L20、L4 | RTX 4090 (AD102)、RTX 4080 | 第 4 代 Tensor Core、FP8、AV1 编码 |
| Hopper (2022) | H100、H200(纯数据中心,无消费对应) | — | Transformer Engine、FP8、DPX 指令、第 4 代 Tensor Core |
| Blackwell (2024-2025) | B200、B300、GB300 NVL72 | RTX 5090 (GB202) | 第 5 代 Tensor Core、FP4、第二代 Transformer Engine |
🧠 关键认知:Ada Lovelace 和 Hopper 的关系
Ada Lovelace 和 Hopper 是同一代(2022)的两个分支,不是先后关系。Ada Lovelace 面向图形+AI 混合场景(L 系列、RTX 40 系列),Hopper 是纯 AI/HPC 加速器(H 系列)。两者共享第 4 代 Tensor Core 和 FP8 支持,但 Hopper 独有 Transformer Engine(能自动在 FP8/FP16 间切换以优化精度和速度),并且因为使用 HBM 显存,带宽远超 Ada 的 GDDR。
在进入具体型号前,先建立几个关键概念。这些是理解"为什么某些 GPU 适合某些场景"的底层逻辑。每个概念都附带直觉理解,帮助你建立心理模型。
直觉类比:显存像书桌大小。桌子太小,连一本书都摊不开;桌子够大,你可以同时摆好几本书来回翻。
LLM 推理中,显存被三样东西占据:
2 × num_layers × num_kv_heads × head_dim × seq_length × bytes_per_element【显存需求估算】
总需求 ≈ 模型权重(GB) + 并发数 × 单请求 KV Cache(GB) + 框架开销(2-5GB)
【实例】Llama 2 7B FP16
= 14GB 权重 + 10并发 × 4K ctx (≈0.2GB/req) + 5GB 开销
≈ 21GB → 单张 24GB 卡刚好够
【实例】Llama 2 70B INT4 + Agent 场景
= 35GB 权重 + 20并发 × 32K ctx (≈1.6GB/req) + 5GB 开销
≈ 72GB → 至少需要 80GB 卡(A100 80GB / H100)
直觉类比:带宽像书桌到大脑的高速公路。路面越宽(带宽越高),拿取信息越快。
核心洞察:LLM 推理的 decode 阶段是显存带宽密集型的——每生成一个 token,都要把整个模型权重从显存读一遍。这意味着:
每秒生成 token 数 ≈ 显存带宽 ÷ 模型权重大小
实例对比(同为 Llama 2 7B FP16,权重约 14 GB):
这就是为什么即使 L40S 的 FP16 算力数值很高(733 TFLOPS),实际推理吞吐却远不如 H100——推理不是被算力卡住的,是被带宽卡住的。选卡先看带宽。
直觉理解:精度就像照片分辨率。FP32 是原始 RAW 文件,FP16/BF16 是高质量 JPEG,FP8 是经过优化的 WebP——肉眼几乎看不出差别但文件体积减半。INT4 更像是高度压缩的缩略图,能用但细节有损。
| 格式 | 每参数字节 | 70B 模型权重 | 典型应用场景 | 从哪代开始支持 |
|---|---|---|---|---|
| FP32 | 4 bytes | 280 GB | 科学计算,AI 推理几乎不用 | 所有 |
| TF32 | 4 bytes(19位精度) | 280 GB | Ampere 引入的训练加速格式,自动兼容 FP32 代码 | Ampere+ |
| FP16 / BF16 | 2 bytes | 140 GB | 训练主流精度、推理基准 | 所有 |
| FP8 | 1 byte | 70 GB | 推理加速的关键 — 吞吐基本翻倍,精度几乎无损 | Hopper / Ada Lovelace+ |
| INT8 | 1 byte | 70 GB | 经典推理量化方式 | 所有(Turing+ 更优) |
| INT4 | 0.5 byte | 35 GB | 极端量化,小显存跑大模型 | Turing+ |
| FP4 | 0.5 byte | 35 GB | Blackwell 引入的原生低精度 | Blackwell+ |
FP8 是分水岭。Ampere(A100)不支持原生 FP8,这是它和 Hopper/Ada Lovelace 之间最本质的推理性能差异。用 A100 跑推理只能选 FP16(慢)或 INT8 量化(可能掉精度),而 Hopper/Ada 可以选择 FP8 获得接近无损的翻倍吞吐。
直觉理解:CUDA Core 是瑞士军刀(什么都能算但效率一般),Tensor Core 是专门切面包的机器(只能做矩阵乘法但极快)。LLM 推理本质就是不停做矩阵乘法,所以 Tensor Core 的性能直接决定吞吐。
| 代际 | 架构 | 代表 GPU | 关键能力 |
|---|---|---|---|
| 第 1 代 | Volta | V100 | FP16 加速(开创性) |
| 第 2 代 | Turing | T4 / RTX 20 | INT8 / INT4 支持 |
| 第 3 代 | Ampere | A100 / RTX 30 | TF32、BF16、2:4 结构化稀疏(2x 加速) |
| 第 4 代 | Hopper / Ada Lovelace | H100 / L40S / RTX 40 | FP8 原生支持、Transformer Engine(Hopper 独有) |
| 第 5 代 | Blackwell | B200 / RTX 50 | FP4 原生支持、第二代 Transformer Engine |
直觉类比:HBM 是高层公寓(多颗 DRAM 芯片 3D 垂直堆叠,高密度、高带宽、贵),GDDR 是平房区(传统 PCB 平面布线,成本低但带宽有限)。
这也是 A100(HBM2e, 2 TB/s)和 L40S(GDDR6, 864 GB/s)带宽差距的本质原因——即使 L40S 的 FP16 算力数值更高,GDDR 的物理带宽限制了它在推理场景的实际表现。
PCIe 版本(如 H100 PCIe):标准 PCIe 插槽,功耗受限(350W),无 NVLink。适合单卡推理或小规模部署。任何标准服务器都能装。
SXM 版本(如 H100 SXM):通过 NVSwitch 底板互联的特殊接口,功耗更高(700W),带宽大幅提升(PCIe 版 2.0 TB/s vs SXM 版 3.35 TB/s),支持 8 卡 NVLink 全互联(900 GB/s 双向)。适合多卡训练和大规模推理。需要专门的 HGX 服务器主板。
对于 Agent 推理部署,单卡场景 PCIe 版即可,没必要为 SXM 多花 40% 的溢价。
NVLink 代际:第 1 代(Volta, 300 GB/s)→ 第 2 代(Ampere, 600 GB/s)→ 第 3 代(Hopper, 900 GB/s)→ 第 4 代(Blackwell, 1.8 TB/s)→ 第 5 代(Rubin, 预计 6x 提升)。NVLink 决定了多 GPU 之间数据传输的上限。
MIG 将一张 GPU 在硬件层面切成多个独立实例,各自拥有专属的显存、缓存和计算核心。A100 最多切 7 份(每份至少 5GB),H100 同样 7 路。
对 Agent 场景的意义:如果有多个小模型(路由模型 + 嵌入模型 + 工具调用模型),可以用 MIG 在一张 H100 上同时服务 7 个独立实例,提高利用率而互不干扰。
MIG 支持情况
✅ 支持:A100、A30、H100、H200
❌ 不支持:L 系列全系、消费卡(RTX 3090/4090/5090)、T4、L4、A10、A40
以下按定位分为四个层级,数据基于 NVIDIA 官方规格表与 2026 Q1/Q2 各云厂商公开报价的交叉比对。
| 型号 | 架构 | 显存 | 显存类型 | 带宽 | FP16 TFLOPS | FP8 | TDP | 互联 | 参考买断价 | 云租用 ($/h) | |
|---|---|---|---|---|---|---|---|---|---|---|---|
| ▸ 入门推理卡 | |||||||||||
| T4 | Turing 2018 | 16GB | GDDR6 | 320 GB/s | 65 | — | 70W | PCIe 3.0 | ~$2,500 | $0.40-0.60 | |
| L4 | Ada Lovelace 2023 | 24GB | GDDR6 | 300 GB/s | 121 | ✅ 242 | 72W | PCIe 4.0 | ~$2,000-3,000 | $0.44-0.80 | |
| ▸ 中端多面手 | |||||||||||
| A10 | Ampere 2021 | 24GB | GDDR6 | 600 GB/s | 125 | — | 150W | PCIe 4.0 | ~$5,700 | $1.26 | |
| L20 | Ada Lovelace 2024 | 48GB | GDDR6 | 864 GB/s | 119.5 | ✅ 239 | 275W | PCIe 4.0 | — | — | |
| A40 | Ampere 2020 | 48GB | GDDR6 | 696 GB/s | 150 | — | 300W | PCIe 4.0 | — | $0.22-2.14 | |
| L40 | Ada Lovelace 2023 | 48GB | GDDR6 | 864 GB/s | 362 | ✅ 733 | 300W | PCIe 4.0 | — | — | |
| L40S | Ada Lovelace 2023 | 48GB | GDDR6 | 864 GB/s | 362 (733*稀疏) | ✅ 733 (1466*) | 350W | PCIe 4.0 | — | $0.72-0.87 | |
| ▸ 高性能计算卡 | |||||||||||
| A100 80GB | Ampere 2020 | 80GB | HBM2e | 2,039 GB/s | 312 (624*) | — | 400W | SXM4 / NVLink 3 (600GB/s) | $10K-17K | $1.29-1.49 | |
| H100 PCIe | Hopper 2022 | 80GB | HBM3 | 2,000 GB/s | 1,000 | ✅ 2,000 | 350W | PCIe 5.0 (无 NVLink) | $25K-30K | $2.00-3.00 | |
| H100 SXM | Hopper 2022 | 80GB | HBM3 | 3,352 GB/s | 990 (1979*) | ✅ 1,979 (3958*) | 700W | SXM5 / NVLink 4 (900GB/s) | $35K-40K | $2.25-3.12 | |
| H200 SXM | Hopper 2024 | 141GB | HBM3e | 4,800 GB/s | 990 (1979*) | ✅ 1,979 (3958*) | 700W | SXM5 / NVLink 4 (900GB/s) | $35K-50K | $2.50-4.54 | |
| ▸ 旗舰前沿卡 | |||||||||||
| B200 | Blackwell 2024 | 192GB | HBM3e | 8,000 GB/s | ~3,500 | ✅ ~9,000 (FP4) | 1,200W | SXM6 / NVLink 5 (1.8TB/s) | $45K-50K | $5.19-7.43 | |
| B300 | Blackwell Ultra 2025 | 288GB | HBM3e | 8,000 GB/s | ~3,500 | ✅ ~7,000 (FP8) | 1,400W | NVLink 5 (1.8TB/s) | — | $6.80 | |
注:"*" 表示稀疏(Sparsity)峰值,是稠密值的 2 倍,反映 2:4 结构化稀疏加速。实际推理吞吐取决于框架优化程度和模型结构。
T4(2018, Turing)已属老旧。16GB 显存只能跑 7B 模型 INT4 量化版,带宽仅 320 GB/s,且不支持 FP8。但 功耗仅 70W,云上存量巨大,价格最低($0.40-0.60/h)。适合 Whisper 语音识别、嵌入模型(Embedding)、图像分类等轻量推理任务。
L4(2023, Ada Lovelace)是 T4 的全面升级版:24GB + FP8 + 72W。在同样功耗下性能翻了几倍。适合跑 7B-13B 量化模型的小规模推理或开发测试。对于 Agent 场景,可以作为意图分类小模型、嵌入模型、Whisper 的部署载体。
L20(你特别关心的型号):这是 Ada Lovelace 家族中相对低调但值得关注的卡。48GB GDDR6,864 GB/s 带宽,275W 功耗。关键数据:
| 指标 | L20 | L40S | 差异 |
|---|---|---|---|
| FP32 | 59.8 TFLOPS | 91.6 TFLOPS | L20 约 65% |
| FP16 Tensor | 119.5 TFLOPS | 362 TFLOPS | L20 约 33% |
| FP8 Tensor | 239 TFLOPS | 733 TFLOPS | L20 约 33% |
| 显存 | 48GB | 48GB | 相同 |
| 带宽 | 864 GB/s | 864 GB/s | 相同 |
| TDP | 275W | 350W | L20 更低 |
| RT Core | ✅ 有 | ❌ 无 | L20 偏图形,L40S 偏纯 AI |
L20 的定位:它是 L40S 的"显存没砍、计算砍半"版本,同时保留了 RT Core(用于图形渲染和视频编解码)。可以把它理解成"48GB 大显存但计算没那么密集"的卡。适合:
A40(Ampere)是上一代中端,48GB + 696 GB/s 带宽。最大短板是不支持 FP8。如果已有 A40 集群可以继续用,新部署不建议。
L40S 是当前中端最值得关注的卡。48GB + 864 GB/s + FP8 + 350W。7B-13B 模型 FP8 推理时,性价比(tokens/sec per dollar)经常超过 H100——因为 L40S 每小时才 $0.72-0.87,而 H100 是 $2.25+。对于 Agent 系统中的工具调用模型和中等规模推理模型,L40S 是当前甜点。
L20 vs L40S 选择指南
选 L40S:你需要高吞吐 LLM 推理(工具调用模型、7B-13B 对话模型),FP16/FP8 吞吐优先
选 L20:你的工作负载是显存密集型而非计算密集型(大批量嵌入、多模态 encoding、视频处理),或者功耗预算受限(275W vs 350W)
这是当前(2026 年中)生产环境的主力区间。
A100 80GB:上一代旗舰,如今年变成了高性价比选手。80GB HBM2e + 2 TB/s,云上 spot 可到 $0.60/h。虽然不支持 FP8 是硬伤,但 80GB 显存意味着可以直接跑 70B INT4 模型。对于预算有限但需要大显存的团队,A100 依然很香。Spot 实例 $0.60/h 跑批处理推理极其划算。
H100 SXM:当前生产环境的基准选择。80GB HBM3 + 3.35 TB/s + FP8 + Transformer Engine。在 Llama 2 70B FP8 上吞吐约 253 tokens/s。云上价格已从 2024 年的 $8/h 降到 2026 年的 $2.25-3.12/h,降幅超过 60%。一卡满足大部分 7B-70B 模型的生产推理。Agent 系统的核心推理模型推荐用 H100。
H200 SXM:H100 的内存增强版——同样的 GPU 核心(算力不变),但显存从 80GB → 141GB,带宽从 3.35 → 4.8 TB/s。对于 70B+ 模型 + 长上下文(32K-128K tokens) 的 Agent 场景,H200 的额外显存避免了 KV Cache 溢出到 CPU 内存(那会严重拖慢速度)。比 H100 贵 10-20%,但在大模型长上下文场景下单位成本更低。
H100 vs H200 选择
选 H100:7B-34B 模型、标准上下文(<8K)、低中并发(<20)
选 H200:70B+ 模型、长上下文 Agent(>32K tokens)、高并发(50+)、需要大 KV Cache
Blackwell 架构的标志性跃进:192-288GB HBM3e + 8 TB/s 带宽。NVIDIA 宣称推理吞吐是 H100 的 11-15 倍(利用 FP4)。B200 的 FP16 性能约 3,500 TFLOPS,是 H100 的近 2 倍。2026 年中仍处于早期部署阶段,供应有限,基础设施要求高(B300 需要液冷)。大多数团队目前不需要考虑,等到 2026 年底供应稳定后再评估。
B300 是首个将 FP4 推理作为一等公民的 GPU——288GB 显存意味着 8-GPU DGX B300 系统可提供 2.3 TB 总 GPU 内存,足以将 400B+ 参数模型全部放在 GPU 显存中。
消费卡对于 AI 开发者来说是把双刃剑——性价比极高但有不少坑。
| 型号 | 架构 | 显存 | 带宽 | FP16 TFLOPS | FP8 | TDP | 参考价 |
|---|---|---|---|---|---|---|---|
| RTX 3090 | Ampere | 24GB GDDR6X | 936 GB/s | 142 | — | 350W | ~$700-1,000 (二手) |
| RTX 4090 | Ada Lovelace | 24GB GDDR6X | 1,008 GB/s | 330 | ✅ | 450W | ~$1,600-2,000 |
| RTX 5090 | Blackwell | 32GB GDDR7 | 1,792 GB/s | — | ✅ | 575W | ~$2,500-3,800 |
| RTX 6000 Ada | Ada Lovelace | 48GB GDDR6 ECC | 960 GB/s | — | ✅ | 300W | 云 ~$0.67/h |
消费卡的利弊分析:
性价比极高
RTX 4090 的 FP16 算力接近 A100,价格只有 1/10
FP8 支持
RTX 40/50 系列支持 FP8,推理加速不输数据中心卡
无 ECC 纠错
长期运行可能产生静默数据损坏(bit flip),生产环境大忌
无 NVLink / MIG
不支持多卡高速互联和 GPU 切分,扩展性受限
驱动限制
数据中心使用 GeForce 驱动违反 NVIDIA EULA(实际很少被追究)
散热受限
主动风扇散热,不适合高密度服务器机架
结论:消费卡适合个人开发、调试、原型验证。不要用于生产环境。如果预算紧张但需要云上跑中低负载推理,选 L40S 或 A100 spot 实例更靠谱。RTX 6000 Ada(工作站卡,48GB ECC)是消费级和服务器级之间的折中选择。
Agent 场景和标准 chatbot 的核心差异:
| 维度 | 标准 Chatbot | Agent 系统 | 对 GPU 选型的影响 |
|---|---|---|---|
| 上下文长度 | 4K-8K tokens(单轮) | 32K-128K tokens(多轮 + tool 历史) | KV Cache 膨胀 → 需要更大显存 |
| 单次请求推理次数 | 1 次 forward pass | N 次(思考→调用工具→分析结果→再思考) | 总 GPU 时间 × N |
| 模型数量 | 1 个模型 | 路由 + 推理 + 工具调用 + 嵌入 | 分级部署可大幅降低成本 |
| 延迟要求 | 宽松(2-5s 可接受) | 敏感(多步推理,每步慢则总延迟爆炸) | 需要高带宽 GPU |
| 并发模式 | 均匀分布 | 突发峰值(用户触发 agent 后大量 tool call) | 需要预留容量弹性 |
Step 1 — 确定模型规模与精度
| 模型规模 | FP16 权重大小 | INT4/FP8 权重大小 | 推荐 GPU |
|---|---|---|---|
| 7B-13B | 14-26 GB | 7-13 GB | L4 (24G) / RTX 4090 (24G) / L40S (48G) |
| 13B-34B | 26-68 GB | 13-34 GB | L40S (48G) / A100 (80G) |
| 34B-70B | 68-140 GB | 34-70 GB | A100 (80G) / H100 (80G) |
| 70B-130B | 140-260 GB | 70-130 GB | H200 (141G) / 双卡 H100 |
| 130B+ / MoE | 260+ GB | 130+ GB | 多卡 H200 / B200 / B300 |
Step 2 — 估算 KV Cache 开销(最容易被忽略的显存杀手)
Agent 系统每轮 tool calling 都会增加上下文,KV Cache 开销比 chatbot 大一个数量级。
Step 3 — 分级部署(推荐架构)
不要用一张 H100 跑所有模型。把 Agent 系统的计算分层:
分级部署的总成本远低于"全部请求打到 H200 上",且各层可以独立扩缩容。
| Agent 场景 | 模型组合 | 并发 | 上下文 | 总显存需求 | 推荐配置 |
|---|---|---|---|---|---|
| 简单 Q&A Agent | 7B | 20 | 4K | ~24GB | 1× RTX 5090 或 L4 |
| 客服 Agent | 13B (GQA) | 50 | 8K | ~90GB | 1× H200 |
| 复杂推理 Agent | 70B | 10 | 32K | ~280GB | 4× H100 SXM 或 3× H200 |
| Orchestrator + 3 Sub-agents | 7B + 3×7B | 各 10 | 4K | ~80GB | 2× H100 PCIe |
| 多模态 Agent(图文理解) | 13B Vision | 20 | 8K | ~60GB | 1× H100 或 2× L40S |
数据来源:Spheron GPU Infrastructure for AI Agents 2026 报告中的推荐配置,已根据 2026 Q2 主流模型规模调整。
以下是各主流 GPU 在 Llama 2 70B 推理下的成本对比:
| GPU | 云时价 ($/h) | 吞吐 (tokens/s) | 每百万 token 成本 | 日处理请求数* |
|---|---|---|---|---|
| A100 80GB PCIe | $1.35 | ~116 | ~$3.23 | ~11,000 |
| L40S | $0.87 | ~70 | ~$3.46 | ~6,000 |
| H100 SXM | $2.25 | ~253 | ~$2.47 | ~22,000 |
| H200 SXM | $3.80 | ~360 | ~$2.93 | ~31,000 |
* 每次请求 1024 tokens。数据来源:CUDO Compute 和 Spheron 2025-2026 年公开基准测试(vLLM + Llama 2 70B FP8)。实际值受 batch size、输入/输出长度分布、框架版本影响。
💡 成本优化三板斧
一个典型 Agent 请求的推理链路:用户提问 → 路由模型(1 次)→ 推理模型思考 + 调用工具 + 分析 + 再思考(5-10 次)→ 生成回答(1 次)。共 7-12 次推理,每次约 1024 tokens,总计约 10,000 tokens。
| GPU | 每百万 token | 单次 Agent 调用成本 | 10,000 次/天 | 100,000 次/天 |
|---|---|---|---|---|
| L40S | $3.46 | $0.035 | $346/天 | $3,460/天 |
| H100 SXM | $2.47 | $0.025 | $247/天 | $2,470/天 |
| H200 SXM | $2.93 | $0.029 | $293/天 | $2,930/天 |
| A100 80GB | $3.23 | $0.032 | $323/天 | $3,230/天 |
结论:H100 虽然每小时租金最贵(除 H200 外),但因为 FP8 吞吐高,单位 token 成本反而最低。这是理解 GPU 选型经济学的关键——比价不看每小时单价,看每个 token 的成本。
NVIDIA 在 GTC 2026 上公布了最新的数据中心路线图:
| 时间 | 架构代号 | 代表产品 | 关键提升 |
|---|---|---|---|
| 2026 H2 | Vera Rubin | Vera CPU + Rubin GPU (NVL144) | FP4 推理 3.6 ExaFLOPS/机架,HBM4,NVLink 6,144 GPU/机架 |
| 2027 H2 | Rubin Ultra | R300 GPU (NVL576, "Kyber" 机架) | 四 GPU die 封装,1TB HBM4e,FP4 15 ExaFLOPS/机架,576 GPU/机架 |
| 2028 | Feynman | 下一代 GPU + Rosa CPU | 3D 堆叠技术,LP40 内存,NVLink 8,BlueField-5 DPU |
趋势很明确:NVIDIA 正在从"卖 GPU 芯片"转向"卖机架级 AI 计算系统"。每一代机架 GPU 数量翻倍、功耗和冷却要求越来越高。对大多数 Agent 开发团队来说,关注云上可用的最新一代 GPU 实例即可,不需要跟机架级系统的发布节奏。真正的拐点是各云厂商什么时候把新 GPU 上架并提供有竞争力的价格。历史经验:H100 从发布到价格稳定花了约 18 个月(2023 → 2025 年中)。Blackwell 大概也差不多。
📚 进一步学习建议
--quantization fp8 参数对比 FP16 vs FP8 的实际差异