TensorRT-LLM：NVIDIA 的开源优化 LLM 推理库

TensorRT-LLM 是 NVIDIA 的开源库，用于在 NVIDIA GPU 上优化 LLM 和视觉生成推理，具备最先进的内核与量化技术。

Keeping this site alive takes effort — your support means everything.

無程式碼也能輕鬆打造專業LINE官方帳號！一鍵導入模板，讓AI助你行銷加分！

技术编辑团队 May 03, 2026 阅读 10 分钟

将大型语言模型部署到生产环境中，不仅仅是把权重加载到 GPU 上那么简单。要达到可接受的吞吐量和延迟，您需要内核融合、注意力机制优化、内存管理和量化——所有这些都要针对您的特定硬件进行调整。NVIDIA 的 TensorRT-LLM 在一个开源库中提供了所有这些功能，从 NVIDIA GPU 中榨取出 LLM 和视觉生成推理的最大性能。

TensorRT-LLM 托管在 github.com/NVIDIA/TensorRT-LLM，是 NVIDIA 官方针对大型语言模型和视觉生成模型的推理优化库。它包含了最先进的内核实现，用于注意力机制（FlashAttention、PageAttention）、量化（FP8、INT4、INT8、INT4-AWQ）和飞行中批处理。该库将模型编译成优化引擎文件，可在从 Turing 到 Blackwell 架构的 NVIDIA GPU 系列上高效运行。

该库已成为许多开源 LLM 服务框架的标准后端，包括 Triton Inference Server 的 TensorRT-LLM 后端和 LangChain 集成。其受欢迎程度来自于在 NVIDIA 硬件上持续提供最佳的延迟和吞吐量数据，通常在相同 GPU 上比原始 PyTorch 实现快 3 到 5 倍。

什么是 TensorRT-LLM？

TensorRT-LLM 是 NVIDIA 的开源库，用于在 NVIDIA GPU 上优化 LLM 和视觉生成模型的推理。它提供用于模型编译、图形优化和运行时执行的 Python API。该库支持超过 30 种模型架构，并包含专门的内核，可最大化基于 Transformer 模型的 GPU 利用率。

TensorRT-LLM 支持哪些 GPU？

TensorRT-LLM 支持计算能力 7.0 及更高版本的 NVIDIA GPU，涵盖数代产品：

GPU 世代	计算能力	示例
Turing	SM 7.5	T4、RTX 2080
Ampere	SM 8.0、8.6	A100、A10、RTX 3090
Ada Lovelace	SM 8.9	RTX 4090、L40S
Hopper	SM 9.0	H100、H200
Blackwell	SM 10.x	B100、B200

每一代在量化类型支持和内核优化方面逐步提升。Hopper 和 Blackwell GPU 支持 FP8 推理和高级注意力内核。

TensorRT-LLM 支持哪些量化方法？

TensorRT-LLM 支持的量化方法范围之广，在所有推理库中居首。

方法	精度	内存节省	首选硬件
FP8	8 位浮点	相较 FP16 省 2 倍	Hopper、Blackwell
INT8	8 位整数	相较 FP16 省 2 倍	所有 SM 7.0+
INT4	4 位整数	相较 FP16 省 4 倍	所有 SM 7.0+
INT4-AWQ	4 位 + AWQ	相较 FP16 省 4 倍	所有 SM 7.0+
INT4-GPTQ	4 位 + GPTQ	相较 FP16 省 4 倍	所有 SM 7.0+
FP4	4 位浮点	相较 FP16 省 4 倍	Blackwell
NF4	4 位归一化浮点	相较 FP16 省 4 倍	所有 SM 7.0+

量化在模型编译步骤期间进行，使用校准数据集来确定最佳量化范围。

支持哪些模型？

TensorRT-LLM 支持 30 多种模型架构，包括所有主要的开源 LLM 和视觉生成模型。

模型	架构	量化支持
LLaMA / Llama 2 / Llama 3	仅解码器	FP8、INT8、INT4、AWQ
Mistral / Mixtral	仅解码器、MoE	FP8、INT8、INT4
Qwen / Qwen2	仅解码器	INT8、INT4、AWQ
DeepSeek V2/V3	MoE、多头潜在注意力	INT8、INT4
Nemotron	仅解码器	FP8、INT4
Stable Diffusion 3	扩散	FP8、INT8
FLUX	扩散	FP8

新模型的支持添加迅速，通常在它们开源发布后的数周内。

TensorRT-LLM 的最新版本是什么？

截至 2026 年初，TensorRT-LLM 的最新主要版本是 0.18.x。此版本增加了对 Blackwell GPU（B100、B200）的支持、改进的 FP4 量化内核、用于超过单节点容量的模型的多节点张量并行，以及对 MoE（专家混合）架构（如 Mixtral 和 DeepSeek V3）的增强支持。该项目保持快速的发布节奏，大约每月推出一个次要版本。

常见问题

什么是 TensorRT-LLM？

TensorRT-LLM 是 NVIDIA 的开源库，用于在 NVIDIA GPU 上优化 LLM 和视觉生成模型的推理。它使用内核融合、内存优化和量化将模型编译成优化引擎。

TensorRT-LLM 支持哪些 GPU？

所有计算能力 7.0+ 的 NVIDIA GPU（Turing、Ampere、Ada Lovelace、Hopper 和 Blackwell）。FP8 推理需要 Hopper 或更新版本。FP4 需要 Blackwell。

支持哪些量化方法？

FP8（Hopper+）、INT8、INT4、INT4-AWQ、INT4-GPTQ、FP4（Blackwell）和 NF4。量化在模型编译步骤期间使用校准数据进行。

支持哪些模型？

超过 30 种架构，包括 LLaMA 3、Mistral、Mixtral、Qwen 2、DeepSeek V2/V3、Nemotron，以及像 Stable Diffusion 3 和 FLUX 这样的扩散模型。

TensorRT-LLM 与其他推理后端相比如何？

TensorRT-LLM 在相同 GPU 上持续提供比原始 PyTorch 推理好 3 到 5 倍的吞吐量。它是 Triton Inference Server 的标准后端，广泛用于 LLM 生产部署。

延伸阅读

flowchart LR
    A[模型权重] --> B[TensorRT-LLM 编译器]
    C[校准数据] --> B
    B --> D{优化流程}
    D --> E[内核融合]
    D --> F[注意力优化]
    D --> G[量化]
    D --> H[内存规划]
    E --> I[优化引擎]
    F --> I
    G --> I
    H --> I
    I --> J[运行时执行]
    J --> K[推理结果]

graph TD
    subgraph 性能扩展
        A[FP16 基线] --> B[1 倍吞吐量]
        C[INT8 TensorRT-LLM] --> D[2.5 倍吞吐量]
        E[INT4 TensorRT-LLM] --> F[4 倍吞吐量]
        G[FP8 Hopper TensorRT-LLM] --> H[3 倍吞吐量]
    end
    subgraph GPU 内存
        I[70B 模型 FP16] --> J[需要 140GB]
        K[70B 模型 INT8] --> L[需要 70GB]
        M[70B 模型 INT4] --> N[需要 35GB]
    end

TensorRT-LLM：NVIDIA 的开源优化 LLM 推理库

什么是 TensorRT-LLM？

TensorRT-LLM 支持哪些 GPU？

TensorRT-LLM 支持哪些量化方法？

支持哪些模型？

TensorRT-LLM 的最新版本是什么？