将大型语言模型部署到生产环境中,不仅仅是把权重加载到 GPU 上那么简单。要达到可接受的吞吐量和延迟,您需要内核融合、注意力机制优化、内存管理和量化——所有这些都要针对您的特定硬件进行调整。NVIDIA 的 TensorRT-LLM 在一个开源库中提供了所有这些功能,从 NVIDIA GPU 中榨取出 LLM 和视觉生成推理的最大性能。
TensorRT-LLM 托管在 github.com/NVIDIA/TensorRT-LLM,是 NVIDIA 官方针对大型语言模型和视觉生成模型的推理优化库。它包含了最先进的内核实现,用于注意力机制(FlashAttention、PageAttention)、量化(FP8、INT4、INT8、INT4-AWQ)和飞行中批处理。该库将模型编译成优化引擎文件,可在从 Turing 到 Blackwell 架构的 NVIDIA GPU 系列上高效运行。
该库已成为许多开源 LLM 服务框架的标准后端,包括 Triton Inference Server 的 TensorRT-LLM 后端和 LangChain 集成。其受欢迎程度来自于在 NVIDIA 硬件上持续提供最佳的延迟和吞吐量数据,通常在相同 GPU 上比原始 PyTorch 实现快 3 到 5 倍。
什么是 TensorRT-LLM?
TensorRT-LLM 是 NVIDIA 的开源库,用于在 NVIDIA GPU 上优化 LLM 和视觉生成模型的推理。它提供用于模型编译、图形优化和运行时执行的 Python API。该库支持超过 30 种模型架构,并包含专门的内核,可最大化基于 Transformer 模型的 GPU 利用率。
TensorRT-LLM 支持哪些 GPU?
TensorRT-LLM 支持计算能力 7.0 及更高版本的 NVIDIA GPU,涵盖数代产品:
| GPU 世代 | 计算能力 | 示例 |
|---|---|---|
| Turing | SM 7.5 | T4、RTX 2080 |
| Ampere | SM 8.0、8.6 | A100、A10、RTX 3090 |
| Ada Lovelace | SM 8.9 | RTX 4090、L40S |
| Hopper | SM 9.0 | H100、H200 |
| Blackwell | SM 10.x | B100、B200 |
每一代在量化类型支持和内核优化方面逐步提升。Hopper 和 Blackwell GPU 支持 FP8 推理和高级注意力内核。
TensorRT-LLM 支持哪些量化方法?
TensorRT-LLM 支持的量化方法范围之广,在所有推理库中居首。
| 方法 | 精度 | 内存节省 | 首选硬件 |
|---|---|---|---|
| FP8 | 8 位浮点 | 相较 FP16 省 2 倍 | Hopper、Blackwell |
| INT8 | 8 位整数 | 相较 FP16 省 2 倍 | 所有 SM 7.0+ |
| INT4 | 4 位整数 | 相较 FP16 省 4 倍 | 所有 SM 7.0+ |
| INT4-AWQ | 4 位 + AWQ | 相较 FP16 省 4 倍 | 所有 SM 7.0+ |
| INT4-GPTQ | 4 位 + GPTQ | 相较 FP16 省 4 倍 | 所有 SM 7.0+ |
| FP4 | 4 位浮点 | 相较 FP16 省 4 倍 | Blackwell |
| NF4 | 4 位归一化浮点 | 相较 FP16 省 4 倍 | 所有 SM 7.0+ |
量化在模型编译步骤期间进行,使用校准数据集来确定最佳量化范围。
支持哪些模型?
TensorRT-LLM 支持 30 多种模型架构,包括所有主要的开源 LLM 和视觉生成模型。
| 模型 | 架构 | 量化支持 |
|---|---|---|
| LLaMA / Llama 2 / Llama 3 | 仅解码器 | FP8、INT8、INT4、AWQ |
| Mistral / Mixtral | 仅解码器、MoE | FP8、INT8、INT4 |
| Qwen / Qwen2 | 仅解码器 | INT8、INT4、AWQ |
| DeepSeek V2/V3 | MoE、多头潜在注意力 | INT8、INT4 |
| Nemotron | 仅解码器 | FP8、INT4 |
| Stable Diffusion 3 | 扩散 | FP8、INT8 |
| FLUX | 扩散 | FP8 |
新模型的支持添加迅速,通常在它们开源发布后的数周内。
TensorRT-LLM 的最新版本是什么?
截至 2026 年初,TensorRT-LLM 的最新主要版本是 0.18.x。此版本增加了对 Blackwell GPU(B100、B200)的支持、改进的 FP4 量化内核、用于超过单节点容量的模型的多节点张量并行,以及对 MoE(专家混合)架构(如 Mixtral 和 DeepSeek V3)的增强支持。该项目保持快速的发布节奏,大约每月推出一个次要版本。
常见问题
什么是 TensorRT-LLM?
TensorRT-LLM 是 NVIDIA 的开源库,用于在 NVIDIA GPU 上优化 LLM 和视觉生成模型的推理。它使用内核融合、内存优化和量化将模型编译成优化引擎。
TensorRT-LLM 支持哪些 GPU?
所有计算能力 7.0+ 的 NVIDIA GPU(Turing、Ampere、Ada Lovelace、Hopper 和 Blackwell)。FP8 推理需要 Hopper 或更新版本。FP4 需要 Blackwell。
支持哪些量化方法?
FP8(Hopper+)、INT8、INT4、INT4-AWQ、INT4-GPTQ、FP4(Blackwell)和 NF4。量化在模型编译步骤期间使用校准数据进行。
支持哪些模型?
超过 30 种架构,包括 LLaMA 3、Mistral、Mixtral、Qwen 2、DeepSeek V2/V3、Nemotron,以及像 Stable Diffusion 3 和 FLUX 这样的扩散模型。
TensorRT-LLM 与其他推理后端相比如何?
TensorRT-LLM 在相同 GPU 上持续提供比原始 PyTorch 推理好 3 到 5 倍的吞吐量。它是 Triton Inference Server 的标准后端,广泛用于 LLM 生产部署。
延伸阅读
- TensorRT-LLM GitHub 仓库
- NVIDIA TensorRT-LLM 文档
- 搭配 TensorRT-LLM 后端的 Triton Inference Server
- FlashAttention:快速且内存高效的精确保注意力
- 深度学习的 FP8 格式
flowchart LR
A[模型权重] --> B[TensorRT-LLM 编译器]
C[校准数据] --> B
B --> D{优化流程}
D --> E[内核融合]
D --> F[注意力优化]
D --> G[量化]
D --> H[内存规划]
E --> I[优化引擎]
F --> I
G --> I
H --> I
I --> J[运行时执行]
J --> K[推理结果]graph TD
subgraph 性能扩展
A[FP16 基线] --> B[1 倍吞吐量]
C[INT8 TensorRT-LLM] --> D[2.5 倍吞吐量]
E[INT4 TensorRT-LLM] --> F[4 倍吞吐量]
G[FP8 Hopper TensorRT-LLM] --> H[3 倍吞吐量]
end
subgraph GPU 内存
I[70B 模型 FP16] --> J[需要 140GB]
K[70B 模型 INT8] --> L[需要 70GB]
M[70B 模型 INT4] --> N[需要 35GB]
end
無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分!