AI

TensorRT-LLM:NVIDIA 的開源最佳化 LLM 推論函式庫

TensorRT-LLM 是 NVIDIA 的開源函式庫,用於在 NVIDIA GPU 上最佳化 LLM 和視覺生成推論,具備最先進的核心與量化技術。

Keeping this site alive takes effort — your support means everything.
無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分! 無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分!
TensorRT-LLM:NVIDIA 的開源最佳化 LLM 推論函式庫

將大型語言模型部署到生產環境中,不僅僅是將權重載入 GPU 而已。要達到可接受的吞吐量和延遲,您需要核心融合、注意力機制最佳化、記憶體管理和量化——所有這些都要針對您的特定硬體進行調整。NVIDIA 的 TensorRT-LLM 在一個開源函式庫中提供了所有這些功能,從 NVIDIA GPU 中榨取出 LLM 和視覺生成推論的最大效能。

TensorRT-LLM 託管於 github.com/NVIDIA/TensorRT-LLM,是 NVIDIA 官方針對大型語言模型和視覺生成模型的推論最佳化函式庫。它包含了最先進的核心實作,用於注意力機制(FlashAttention、PageAttention)、量化(FP8、INT4、INT8、INT4-AWQ)和飛行中批次處理。該函式庫將模型編譯成最佳化引擎檔案,可在從 Turing 到 Blackwell 架構的 NVIDIA GPU 系列上高效運行。

該函式庫已成為許多開源 LLM 服務框架的標準後端,包括 Triton Inference Server 的 TensorRT-LLM 後端和 LangChain 整合。其受歡迎程度來自於在 NVIDIA 硬體上持續提供最佳的延遲和吞吐量數據,通常在相同 GPU 上比原始 PyTorch 實作快 3 到 5 倍。

什麼是 TensorRT-LLM?

TensorRT-LLM 是 NVIDIA 的開源函式庫,用於在 NVIDIA GPU 上最佳化 LLM 和視覺生成模型的推論。它提供用於模型編譯、圖形最佳化和執行時期執行的 Python API。該函式庫支援超過 30 種模型架構,並包含專門的核心,可最大化基於 Transformer 模型的 GPU 利用率。

TensorRT-LLM 支援哪些 GPU?

TensorRT-LLM 支援運算能力 7.0 及更高版本的 NVIDIA GPU,涵蓋數個世代:

GPU 世代運算能力範例
TuringSM 7.5T4、RTX 2080
AmpereSM 8.0、8.6A100、A10、RTX 3090
Ada LovelaceSM 8.9RTX 4090、L40S
HopperSM 9.0H100、H200
BlackwellSM 10.xB100、B200

每個世代在量化類型支援和核心最佳化方面逐步提升。Hopper 和 Blackwell GPU 支援 FP8 推論和進階注意力核心。

TensorRT-LLM 支援哪些量化方法?

TensorRT-LLM 支援的量化方法範圍之廣,在所有推論函式庫中居冠。

方法精確度記憶體節省首選硬體
FP88 位元浮點相較 FP16 省 2 倍Hopper、Blackwell
INT88 位元整數相較 FP16 省 2 倍所有 SM 7.0+
INT44 位元整數相較 FP16 省 4 倍所有 SM 7.0+
INT4-AWQ4 位元 + AWQ相較 FP16 省 4 倍所有 SM 7.0+
INT4-GPTQ4 位元 + GPTQ相較 FP16 省 4 倍所有 SM 7.0+
FP44 位元浮點相較 FP16 省 4 倍Blackwell
NF44 位元正規化浮點相較 FP16 省 4 倍所有 SM 7.0+

量化在模型編譯步驟期間進行,使用校正資料集來決定最佳量化範圍。

支援哪些模型?

TensorRT-LLM 支援 30 多種模型架構,包括所有主要的開源 LLM 和視覺生成模型。

模型架構量化支援
LLaMA / Llama 2 / Llama 3僅解碼器FP8、INT8、INT4、AWQ
Mistral / Mixtral僅解碼器、MoEFP8、INT8、INT4
Qwen / Qwen2僅解碼器INT8、INT4、AWQ
DeepSeek V2/V3MoE、多頭潛在注意力INT8、INT4
Nemotron僅解碼器FP8、INT4
Stable Diffusion 3擴散FP8、INT8
FLUX擴散FP8

新模型的支援加入迅速,通常在它們開源發佈後的數週內。

TensorRT-LLM 的最新版本是什麼?

截至 2026 年初,TensorRT-LLM 的最新主要版本是 0.18.x。此版本增加了對 Blackwell GPU(B100、B200)的支援、改進的 FP4 量化核心、用於超過單節點容量的模型的多節點張量並行,以及對 MoE(專家混合)架構(如 Mixtral 和 DeepSeek V3)的增強支援。該專案保持快速的發佈節奏,大約每月推出一個次要版本。

常見問題

什麼是 TensorRT-LLM?

TensorRT-LLM 是 NVIDIA 的開源函式庫,用於在 NVIDIA GPU 上最佳化 LLM 和視覺生成模型的推論。它使用核心融合、記憶體最佳化和量化將模型編譯成最佳化引擎。

TensorRT-LLM 支援哪些 GPU?

所有運算能力 7.0+ 的 NVIDIA GPU(Turing、Ampere、Ada Lovelace、Hopper 和 Blackwell)。FP8 推論需要 Hopper 或更新版本。FP4 需要 Blackwell。

支援哪些量化方法?

FP8(Hopper+)、INT8、INT4、INT4-AWQ、INT4-GPTQ、FP4(Blackwell)和 NF4。量化在模型編譯步驟期間使用校正資料進行。

支援哪些模型?

超過 30 種架構,包括 LLaMA 3、Mistral、Mixtral、Qwen 2、DeepSeek V2/V3、Nemotron,以及像 Stable Diffusion 3 和 FLUX 這樣的擴散模型。

TensorRT-LLM 與其他推論後端相比如何?

TensorRT-LLM 在相同 GPU 上持續提供比原始 PyTorch 推論好 3 到 5 倍的吞吐量。它是 Triton Inference Server 的標準後端,廣泛用於 LLM 生產部署。

延伸閱讀

TAG