TensorRT-LLM：NVIDIA 的開源最佳化 LLM 推論函式庫

TensorRT-LLM 是 NVIDIA 的開源函式庫，用於在 NVIDIA GPU 上最佳化 LLM 和視覺生成推論，具備最先進的核心與量化技術。

Keeping this site alive takes effort — your support means everything.

無程式碼也能輕鬆打造專業LINE官方帳號！一鍵導入模板，讓AI助你行銷加分！

技術編輯團隊 May 03, 2026 閱讀 10 分鐘

將大型語言模型部署到生產環境中，不僅僅是將權重載入 GPU 而已。要達到可接受的吞吐量和延遲，您需要核心融合、注意力機制最佳化、記憶體管理和量化——所有這些都要針對您的特定硬體進行調整。NVIDIA 的 TensorRT-LLM 在一個開源函式庫中提供了所有這些功能，從 NVIDIA GPU 中榨取出 LLM 和視覺生成推論的最大效能。

TensorRT-LLM 託管於 github.com/NVIDIA/TensorRT-LLM，是 NVIDIA 官方針對大型語言模型和視覺生成模型的推論最佳化函式庫。它包含了最先進的核心實作，用於注意力機制（FlashAttention、PageAttention）、量化（FP8、INT4、INT8、INT4-AWQ）和飛行中批次處理。該函式庫將模型編譯成最佳化引擎檔案，可在從 Turing 到 Blackwell 架構的 NVIDIA GPU 系列上高效運行。

該函式庫已成為許多開源 LLM 服務框架的標準後端，包括 Triton Inference Server 的 TensorRT-LLM 後端和 LangChain 整合。其受歡迎程度來自於在 NVIDIA 硬體上持續提供最佳的延遲和吞吐量數據，通常在相同 GPU 上比原始 PyTorch 實作快 3 到 5 倍。

什麼是 TensorRT-LLM？

TensorRT-LLM 是 NVIDIA 的開源函式庫，用於在 NVIDIA GPU 上最佳化 LLM 和視覺生成模型的推論。它提供用於模型編譯、圖形最佳化和執行時期執行的 Python API。該函式庫支援超過 30 種模型架構，並包含專門的核心，可最大化基於 Transformer 模型的 GPU 利用率。

TensorRT-LLM 支援哪些 GPU？

TensorRT-LLM 支援運算能力 7.0 及更高版本的 NVIDIA GPU，涵蓋數個世代：

GPU 世代	運算能力	範例
Turing	SM 7.5	T4、RTX 2080
Ampere	SM 8.0、8.6	A100、A10、RTX 3090
Ada Lovelace	SM 8.9	RTX 4090、L40S
Hopper	SM 9.0	H100、H200
Blackwell	SM 10.x	B100、B200

每個世代在量化類型支援和核心最佳化方面逐步提升。Hopper 和 Blackwell GPU 支援 FP8 推論和進階注意力核心。

TensorRT-LLM 支援哪些量化方法？

TensorRT-LLM 支援的量化方法範圍之廣，在所有推論函式庫中居冠。

方法	精確度	記憶體節省	首選硬體
FP8	8 位元浮點	相較 FP16 省 2 倍	Hopper、Blackwell
INT8	8 位元整數	相較 FP16 省 2 倍	所有 SM 7.0+
INT4	4 位元整數	相較 FP16 省 4 倍	所有 SM 7.0+
INT4-AWQ	4 位元 + AWQ	相較 FP16 省 4 倍	所有 SM 7.0+
INT4-GPTQ	4 位元 + GPTQ	相較 FP16 省 4 倍	所有 SM 7.0+
FP4	4 位元浮點	相較 FP16 省 4 倍	Blackwell
NF4	4 位元正規化浮點	相較 FP16 省 4 倍	所有 SM 7.0+

量化在模型編譯步驟期間進行，使用校正資料集來決定最佳量化範圍。

支援哪些模型？

TensorRT-LLM 支援 30 多種模型架構，包括所有主要的開源 LLM 和視覺生成模型。

模型	架構	量化支援
LLaMA / Llama 2 / Llama 3	僅解碼器	FP8、INT8、INT4、AWQ
Mistral / Mixtral	僅解碼器、MoE	FP8、INT8、INT4
Qwen / Qwen2	僅解碼器	INT8、INT4、AWQ
DeepSeek V2/V3	MoE、多頭潛在注意力	INT8、INT4
Nemotron	僅解碼器	FP8、INT4
Stable Diffusion 3	擴散	FP8、INT8
FLUX	擴散	FP8

新模型的支援加入迅速，通常在它們開源發佈後的數週內。

TensorRT-LLM 的最新版本是什麼？

截至 2026 年初，TensorRT-LLM 的最新主要版本是 0.18.x。此版本增加了對 Blackwell GPU（B100、B200）的支援、改進的 FP4 量化核心、用於超過單節點容量的模型的多節點張量並行，以及對 MoE（專家混合）架構（如 Mixtral 和 DeepSeek V3）的增強支援。該專案保持快速的發佈節奏，大約每月推出一個次要版本。

常見問題

什麼是 TensorRT-LLM？

TensorRT-LLM 是 NVIDIA 的開源函式庫，用於在 NVIDIA GPU 上最佳化 LLM 和視覺生成模型的推論。它使用核心融合、記憶體最佳化和量化將模型編譯成最佳化引擎。

TensorRT-LLM 支援哪些 GPU？

所有運算能力 7.0+ 的 NVIDIA GPU（Turing、Ampere、Ada Lovelace、Hopper 和 Blackwell）。FP8 推論需要 Hopper 或更新版本。FP4 需要 Blackwell。

支援哪些量化方法？

FP8（Hopper+）、INT8、INT4、INT4-AWQ、INT4-GPTQ、FP4（Blackwell）和 NF4。量化在模型編譯步驟期間使用校正資料進行。

支援哪些模型？

超過 30 種架構，包括 LLaMA 3、Mistral、Mixtral、Qwen 2、DeepSeek V2/V3、Nemotron，以及像 Stable Diffusion 3 和 FLUX 這樣的擴散模型。

TensorRT-LLM 與其他推論後端相比如何？

TensorRT-LLM 在相同 GPU 上持續提供比原始 PyTorch 推論好 3 到 5 倍的吞吐量。它是 Triton Inference Server 的標準後端，廣泛用於 LLM 生產部署。

延伸閱讀

flowchart LR
    A[模型權重] --> B[TensorRT-LLM 編譯器]
    C[校正資料] --> B
    B --> D{最佳化流程}
    D --> E[核心融合]
    D --> F[注意力最佳化]
    D --> G[量化]
    D --> H[記憶體規劃]
    E --> I[最佳化引擎]
    F --> I
    G --> I
    H --> I
    I --> J[執行時期執行]
    J --> K[推論結果]

graph TD
    subgraph 效能擴展
        A[FP16 基準線] --> B[1 倍吞吐量]
        C[INT8 TensorRT-LLM] --> D[2.5 倍吞吐量]
        E[INT4 TensorRT-LLM] --> F[4 倍吞吐量]
        G[FP8 Hopper TensorRT-LLM] --> H[3 倍吞吐量]
    end
    subgraph GPU 記憶體
        I[70B 模型 FP16] --> J[需要 140GB]
        K[70B 模型 INT8] --> L[需要 70GB]
        M[70B 模型 INT4] --> N[需要 35GB]
    end

TensorRT-LLM：NVIDIA 的開源最佳化 LLM 推論函式庫

什麼是 TensorRT-LLM？

TensorRT-LLM 支援哪些 GPU？

TensorRT-LLM 支援哪些量化方法？

支援哪些模型？

TensorRT-LLM 的最新版本是什麼？