AI

TensorRT-LLM:NVIDIA 的开源优化 LLM 推理库

TensorRT-LLM 是 NVIDIA 的开源库,用于在 NVIDIA GPU 上优化 LLM 和视觉生成推理,具备最先进的内核与量化技术。

Keeping this site alive takes effort — your support means everything.
無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分! 無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分!
TensorRT-LLM:NVIDIA 的开源优化 LLM 推理库

将大型语言模型部署到生产环境中,不仅仅是把权重加载到 GPU 上那么简单。要达到可接受的吞吐量和延迟,您需要内核融合、注意力机制优化、内存管理和量化——所有这些都要针对您的特定硬件进行调整。NVIDIA 的 TensorRT-LLM 在一个开源库中提供了所有这些功能,从 NVIDIA GPU 中榨取出 LLM 和视觉生成推理的最大性能。

TensorRT-LLM 托管在 github.com/NVIDIA/TensorRT-LLM,是 NVIDIA 官方针对大型语言模型和视觉生成模型的推理优化库。它包含了最先进的内核实现,用于注意力机制(FlashAttention、PageAttention)、量化(FP8、INT4、INT8、INT4-AWQ)和飞行中批处理。该库将模型编译成优化引擎文件,可在从 Turing 到 Blackwell 架构的 NVIDIA GPU 系列上高效运行。

该库已成为许多开源 LLM 服务框架的标准后端,包括 Triton Inference Server 的 TensorRT-LLM 后端和 LangChain 集成。其受欢迎程度来自于在 NVIDIA 硬件上持续提供最佳的延迟和吞吐量数据,通常在相同 GPU 上比原始 PyTorch 实现快 3 到 5 倍。

什么是 TensorRT-LLM?

TensorRT-LLM 是 NVIDIA 的开源库,用于在 NVIDIA GPU 上优化 LLM 和视觉生成模型的推理。它提供用于模型编译、图形优化和运行时执行的 Python API。该库支持超过 30 种模型架构,并包含专门的内核,可最大化基于 Transformer 模型的 GPU 利用率。

TensorRT-LLM 支持哪些 GPU?

TensorRT-LLM 支持计算能力 7.0 及更高版本的 NVIDIA GPU,涵盖数代产品:

GPU 世代计算能力示例
TuringSM 7.5T4、RTX 2080
AmpereSM 8.0、8.6A100、A10、RTX 3090
Ada LovelaceSM 8.9RTX 4090、L40S
HopperSM 9.0H100、H200
BlackwellSM 10.xB100、B200

每一代在量化类型支持和内核优化方面逐步提升。Hopper 和 Blackwell GPU 支持 FP8 推理和高级注意力内核。

TensorRT-LLM 支持哪些量化方法?

TensorRT-LLM 支持的量化方法范围之广,在所有推理库中居首。

方法精度内存节省首选硬件
FP88 位浮点相较 FP16 省 2 倍Hopper、Blackwell
INT88 位整数相较 FP16 省 2 倍所有 SM 7.0+
INT44 位整数相较 FP16 省 4 倍所有 SM 7.0+
INT4-AWQ4 位 + AWQ相较 FP16 省 4 倍所有 SM 7.0+
INT4-GPTQ4 位 + GPTQ相较 FP16 省 4 倍所有 SM 7.0+
FP44 位浮点相较 FP16 省 4 倍Blackwell
NF44 位归一化浮点相较 FP16 省 4 倍所有 SM 7.0+

量化在模型编译步骤期间进行,使用校准数据集来确定最佳量化范围。

支持哪些模型?

TensorRT-LLM 支持 30 多种模型架构,包括所有主要的开源 LLM 和视觉生成模型。

模型架构量化支持
LLaMA / Llama 2 / Llama 3仅解码器FP8、INT8、INT4、AWQ
Mistral / Mixtral仅解码器、MoEFP8、INT8、INT4
Qwen / Qwen2仅解码器INT8、INT4、AWQ
DeepSeek V2/V3MoE、多头潜在注意力INT8、INT4
Nemotron仅解码器FP8、INT4
Stable Diffusion 3扩散FP8、INT8
FLUX扩散FP8

新模型的支持添加迅速,通常在它们开源发布后的数周内。

TensorRT-LLM 的最新版本是什么?

截至 2026 年初,TensorRT-LLM 的最新主要版本是 0.18.x。此版本增加了对 Blackwell GPU(B100、B200)的支持、改进的 FP4 量化内核、用于超过单节点容量的模型的多节点张量并行,以及对 MoE(专家混合)架构(如 Mixtral 和 DeepSeek V3)的增强支持。该项目保持快速的发布节奏,大约每月推出一个次要版本。

常见问题

什么是 TensorRT-LLM?

TensorRT-LLM 是 NVIDIA 的开源库,用于在 NVIDIA GPU 上优化 LLM 和视觉生成模型的推理。它使用内核融合、内存优化和量化将模型编译成优化引擎。

TensorRT-LLM 支持哪些 GPU?

所有计算能力 7.0+ 的 NVIDIA GPU(Turing、Ampere、Ada Lovelace、Hopper 和 Blackwell)。FP8 推理需要 Hopper 或更新版本。FP4 需要 Blackwell。

支持哪些量化方法?

FP8(Hopper+)、INT8、INT4、INT4-AWQ、INT4-GPTQ、FP4(Blackwell)和 NF4。量化在模型编译步骤期间使用校准数据进行。

支持哪些模型?

超过 30 种架构,包括 LLaMA 3、Mistral、Mixtral、Qwen 2、DeepSeek V2/V3、Nemotron,以及像 Stable Diffusion 3 和 FLUX 这样的扩散模型。

TensorRT-LLM 与其他推理后端相比如何?

TensorRT-LLM 在相同 GPU 上持续提供比原始 PyTorch 推理好 3 到 5 倍的吞吐量。它是 Triton Inference Server 的标准后端,广泛用于 LLM 生产部署。

延伸阅读

TAG
CATEGORIES