随着聊天机器人、代码助手等 AI 工具的普及,很多小型团队一开始尝试直接把模型跑在现成的游戏显卡上。但很快就遇到一堆问题:内存溢出、延迟卡顿、电费飙升……这种方式显然不具备可扩展性。于是,有的团队转向大型语言模型(LLM)服务商,有的则干脆自己搭硬件堆栈,从零开始优化。
到了 2025 年,选择其实更丰富了。现在主流的 LLM 部署主要围绕三款 NVIDIA 的“老将”:面向数据中心的 H100、依然性价比不错的 A100,以及适合工作站环境的 RTX A6000。这三款显卡在速度、显存和价格上各有侧重。本文会结合实际使用情况,聊聊如何选 GPU 来跑 LLM,帮你避开隐藏成本,并看看未来趋势。
LLM 部署选 GPU,关键看什么?
很多人只盯着显卡的理论算力,但如果你的 LLM 部署环境跑起来一卡一卡,规格再高也没意义。真正重要的是:能不能在真实业务负载下保持流畅、稳定。
常见影响因素包括:
- 负载下的性能:每秒生成 token 数(tokens/s)、FP16/FP8/INT8 的吞吐、KV 缓存效率
- 显存容量:模型+KV 缓存能否装得下,避免碎片化
- 显存带宽:数据通道够不够宽,能不能喂饱 CUDA 核心
- 功耗与效率:tokens/s/W,算力和电费哪个划算
- 软件兼容性:能否稳定跑 DeepSpeed、vLLM、TensorRT-LLM 等框架
GPU 性能怎么看?
显卡的 FLOPS、CUDA 核心、Tensor 核心当然重要,但跑 LLM 关键是矩阵运算效率,而不是单纯堆核心。
- H100:FP8 下算力超过 1 petaFLOP,CUDA 核心接近 1.7 万,延迟敏感场景的首选。
- A100:FP16 下依然是“全能型选手”,买得到、用得稳。
- RTX A6000:48 GB 显存,INT8 推理表现不错,适合边缘部署或小型自建环境。
记住一个经验:每 1 TFLOP 算力最好配 ~20 GB/s 显存带宽,才能避免卡顿。
显存和带宽
显存(VRAM)就是能不能装下模型的关键:
- H100:80 GB,轻松装下大模型和大批量请求
- A100:40/80 GB 版本,大多数场景够用
- A6000:48 GB ECC 显存,适合小规模 LLM 服务
带宽方面,H100 的 HBM3 >3 TB/s,几乎是 A100 的两倍。A6000 的 GDDR6 约 768 GB/s,只能满足量化或混合任务。
功耗与成本
硬件价格只是第一步,真正的花销在电费、散热、机架、维护工时。
- H100:功耗 ~350W,但效率高,长期更省心
- A100:250W,成熟稳定,翻新卡性价比高
- A6000:约 300W,适合中小团队和工作站
有时候便宜显卡(比如 RTX 4090)看似划算,但驱动更新就可能把整个流程搞崩。长期总拥有成本(TCO)才是关键。
常见 GPU 对比(2025 年中期价格)
GPU | 显存 | 带宽 | 功耗 | 持续 tokens/s | 价格区间 | 适用场景 |
---|---|---|---|---|---|---|
H100 80GB | 80 GB HBM3 | ~3 TB/s | 350W | 900–1200 | $22k–28k | 数据中心级、严格 SLA、大规模 LLM 部署 |
A100 40/80GB | HBM2e | ~2 TB/s | 250W | 450–600 | $6k–9k(翻新常见) | 均衡主力、性价比高、多实例部署 |
RTX A6000 48GB | GDDR6 ECC | ~768 GB/s | 300W | 250–350 | $4k–5.5k | 工作站、边缘部署、小团队自建 |
RTX 4090 | 24 GB GDDR6X | ~1 TB/s | 450W | 220–320 | $1.6k–2k | 实验、爱好者学习 |
Tesla T4 | 16 GB | 320 GB/s | 70W | 60–90 | $400–700 | 边缘设备、低延迟推理 |
数据中心卡 vs 消费级卡
选择数据中心 GPU(H100、A100),如果:
- 有 SLA、延迟要求严格、合规性要求高
- ECC 内存、远程管理、稳定驱动不可或缺
- 需要长期高负载运行
选择消费级或工作站 GPU(RTX 4090、A6000),如果:
- 在做原型或实验,没有严格稳定性要求
- 前期预算有限
- 能接受偶尔的驱动或系统问题
一句话:要赚钱的业务用数据中心 GPU,要试水/学习用消费级 GPU。
如何扩展多 GPU?
扩展不是简单“多插几块卡”,要考虑:
- 拓扑结构:H100/A100 用 NVLink,消费级卡靠 PCIe
- 显存匹配:同一组 GPU 最好显存一致
- 并行策略:大模型用张量并行,小显存用流水线并行
- 部署方式:蓝绿/金丝雀部署,避免全盘崩溃
- 混沌测试:提前模拟掉卡、掉线,保证能优雅降级
展望:NVIDIA 下一代 Blackwell
NVIDIA 在 CES 2025 发布了 Blackwell 架构(GB100)。重点是:
- 第五代 Tensor 核心,原生 4bit 支持,推理效率翻倍
- Central Fabric,直接把 16 张 GPU 拉成一个逻辑域
- 单机就能跑上万亿参数模型,不再需要复杂的手工切片
这意味着未来大规模 LLM 部署会更简单,云厂商和大企业会第一时间采用。
总结
在 2025 年,GPU 的选择往往比模型本身更影响用户体验。
- H100:适合延迟敏感、对 SLA 严格的大型部署
- A100:二手市场热门,预算有限的团队最佳选择
- RTX A6000 / 4090:适合实验、小规模或个人学习
无论你是 Fortune 500 企业要跑生产环境,还是个人玩家想学 LLM 部署,记住三条:
尊重瓶颈、测试混乱场景、随时监控。
这样才能保证 LLM 部署真正稳定、可靠。