將大型語言模型部署到生產環境中,不僅僅是將權重載入 GPU 而已。要達到可接受的吞吐量和延遲,您需要核心融合、注意力機制最佳化、記憶體管理和量化——所有這些都要針對您的特定硬體進行調整。NVIDIA 的 TensorRT-LLM 在一個開源函式庫中提供了所有這些功能,從 NVIDIA GPU 中榨取出 LLM 和視覺生成推論的最大效能。
TensorRT-LLM 託管於 github.com/NVIDIA/TensorRT-LLM,是 NVIDIA 官方針對大型語言模型和視覺生成模型的推論最佳化函式庫。它包含了最先進的核心實作,用於注意力機制(FlashAttention、PageAttention)、量化(FP8、INT4、INT8、INT4-AWQ)和飛行中批次處理。該函式庫將模型編譯成最佳化引擎檔案,可在從 Turing 到 Blackwell 架構的 NVIDIA GPU 系列上高效運行。
該函式庫已成為許多開源 LLM 服務框架的標準後端,包括 Triton Inference Server 的 TensorRT-LLM 後端和 LangChain 整合。其受歡迎程度來自於在 NVIDIA 硬體上持續提供最佳的延遲和吞吐量數據,通常在相同 GPU 上比原始 PyTorch 實作快 3 到 5 倍。
什麼是 TensorRT-LLM?
TensorRT-LLM 是 NVIDIA 的開源函式庫,用於在 NVIDIA GPU 上最佳化 LLM 和視覺生成模型的推論。它提供用於模型編譯、圖形最佳化和執行時期執行的 Python API。該函式庫支援超過 30 種模型架構,並包含專門的核心,可最大化基於 Transformer 模型的 GPU 利用率。
TensorRT-LLM 支援哪些 GPU?
TensorRT-LLM 支援運算能力 7.0 及更高版本的 NVIDIA GPU,涵蓋數個世代:
| GPU 世代 | 運算能力 | 範例 |
|---|---|---|
| Turing | SM 7.5 | T4、RTX 2080 |
| Ampere | SM 8.0、8.6 | A100、A10、RTX 3090 |
| Ada Lovelace | SM 8.9 | RTX 4090、L40S |
| Hopper | SM 9.0 | H100、H200 |
| Blackwell | SM 10.x | B100、B200 |
每個世代在量化類型支援和核心最佳化方面逐步提升。Hopper 和 Blackwell GPU 支援 FP8 推論和進階注意力核心。
TensorRT-LLM 支援哪些量化方法?
TensorRT-LLM 支援的量化方法範圍之廣,在所有推論函式庫中居冠。
| 方法 | 精確度 | 記憶體節省 | 首選硬體 |
|---|---|---|---|
| FP8 | 8 位元浮點 | 相較 FP16 省 2 倍 | Hopper、Blackwell |
| INT8 | 8 位元整數 | 相較 FP16 省 2 倍 | 所有 SM 7.0+ |
| INT4 | 4 位元整數 | 相較 FP16 省 4 倍 | 所有 SM 7.0+ |
| INT4-AWQ | 4 位元 + AWQ | 相較 FP16 省 4 倍 | 所有 SM 7.0+ |
| INT4-GPTQ | 4 位元 + GPTQ | 相較 FP16 省 4 倍 | 所有 SM 7.0+ |
| FP4 | 4 位元浮點 | 相較 FP16 省 4 倍 | Blackwell |
| NF4 | 4 位元正規化浮點 | 相較 FP16 省 4 倍 | 所有 SM 7.0+ |
量化在模型編譯步驟期間進行,使用校正資料集來決定最佳量化範圍。
支援哪些模型?
TensorRT-LLM 支援 30 多種模型架構,包括所有主要的開源 LLM 和視覺生成模型。
| 模型 | 架構 | 量化支援 |
|---|---|---|
| LLaMA / Llama 2 / Llama 3 | 僅解碼器 | FP8、INT8、INT4、AWQ |
| Mistral / Mixtral | 僅解碼器、MoE | FP8、INT8、INT4 |
| Qwen / Qwen2 | 僅解碼器 | INT8、INT4、AWQ |
| DeepSeek V2/V3 | MoE、多頭潛在注意力 | INT8、INT4 |
| Nemotron | 僅解碼器 | FP8、INT4 |
| Stable Diffusion 3 | 擴散 | FP8、INT8 |
| FLUX | 擴散 | FP8 |
新模型的支援加入迅速,通常在它們開源發佈後的數週內。
TensorRT-LLM 的最新版本是什麼?
截至 2026 年初,TensorRT-LLM 的最新主要版本是 0.18.x。此版本增加了對 Blackwell GPU(B100、B200)的支援、改進的 FP4 量化核心、用於超過單節點容量的模型的多節點張量並行,以及對 MoE(專家混合)架構(如 Mixtral 和 DeepSeek V3)的增強支援。該專案保持快速的發佈節奏,大約每月推出一個次要版本。
常見問題
什麼是 TensorRT-LLM?
TensorRT-LLM 是 NVIDIA 的開源函式庫,用於在 NVIDIA GPU 上最佳化 LLM 和視覺生成模型的推論。它使用核心融合、記憶體最佳化和量化將模型編譯成最佳化引擎。
TensorRT-LLM 支援哪些 GPU?
所有運算能力 7.0+ 的 NVIDIA GPU(Turing、Ampere、Ada Lovelace、Hopper 和 Blackwell)。FP8 推論需要 Hopper 或更新版本。FP4 需要 Blackwell。
支援哪些量化方法?
FP8(Hopper+)、INT8、INT4、INT4-AWQ、INT4-GPTQ、FP4(Blackwell)和 NF4。量化在模型編譯步驟期間使用校正資料進行。
支援哪些模型?
超過 30 種架構,包括 LLaMA 3、Mistral、Mixtral、Qwen 2、DeepSeek V2/V3、Nemotron,以及像 Stable Diffusion 3 和 FLUX 這樣的擴散模型。
TensorRT-LLM 與其他推論後端相比如何?
TensorRT-LLM 在相同 GPU 上持續提供比原始 PyTorch 推論好 3 到 5 倍的吞吐量。它是 Triton Inference Server 的標準後端,廣泛用於 LLM 生產部署。
延伸閱讀
- TensorRT-LLM GitHub 儲存庫
- NVIDIA TensorRT-LLM 文件
- 搭配 TensorRT-LLM 後端的 Triton Inference Server
- FlashAttention:快速且記憶體高效的精確注意力
- 深度學習的 FP8 格式
flowchart LR
A[模型權重] --> B[TensorRT-LLM 編譯器]
C[校正資料] --> B
B --> D{最佳化流程}
D --> E[核心融合]
D --> F[注意力最佳化]
D --> G[量化]
D --> H[記憶體規劃]
E --> I[最佳化引擎]
F --> I
G --> I
H --> I
I --> J[執行時期執行]
J --> K[推論結果]graph TD
subgraph 效能擴展
A[FP16 基準線] --> B[1 倍吞吐量]
C[INT8 TensorRT-LLM] --> D[2.5 倍吞吐量]
E[INT4 TensorRT-LLM] --> F[4 倍吞吐量]
G[FP8 Hopper TensorRT-LLM] --> H[3 倍吞吐量]
end
subgraph GPU 記憶體
I[70B 模型 FP16] --> J[需要 140GB]
K[70B 模型 INT8] --> L[需要 70GB]
M[70B 模型 INT4] --> N[需要 35GB]
end
無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分!