大型語言模型功能強大,但其體積使得部署成本高昂。一個 700 億參數的 16 位元精確度模型需要 140GB 的 GPU 記憶體——遠超單一消費級 GPU 的容量。量化是主要的解決方案:降低數值精確度以縮小記憶體佔用並加速推論。由 ModelCloud 開發的 GPTQModel 是一個生產級量化工具包,在各種硬體上都能實際應用。
GPTQModel 將多種量化方法——GPTQ、AWQ 和 GGUF——統一在單一 API 之下,支援 Nvidia、AMD、Intel GPU 以及 CPU 推論上的 30 多種模型架構。位於 github.com/ModelCloud/GPTQModel 的專案已迅速成為需要將 LLM 部署到生產環境、又不想受限於單一量化格式的團隊的首選量化函式庫。
該函式庫處理整個量化工作流程:校正資料集準備、量化執行、模型評估和匯出。它支援即時量化和從 Hugging Face 載入預量化模型,對於一次性實驗和自動化部署管線都同樣有用。
什麼是 GPTQModel?
GPTQModel 是一個針對大型語言模型的全面量化工具包。它提供統一的 Python API,可分別使用 GPTQ(訓練後量化)、AWQ(啟動感知權重量化)和 GGUF(GGML 通用格式)對模型進行量化。該函式庫專為生產使用而設計,支援批次量化、分散式校正和廣泛的模型架構覆蓋。
GPTQModel 支援哪些量化方法?
| 方法 | 精確度 | 最適合 | 硬體 |
|---|---|---|---|
| GPTQ | 2-8 位元 | 一般 GPU 推論 | CUDA、ROCm、Intel XPU |
| AWQ | 4 位元 | 困惑度敏感任務 | CUDA、ROCm |
| GGUF | 2-8 位元 | CPU 和混合推論 | CPU、Metal、CUDA |
| Marlin | 4 位元 | 吞吐量優化 CUDA | 僅 CUDA |
| FP8 | 8 位元 | Hopper GPU(H100/H200) | CUDA(SM 90+) |
每種方法在壓縮比、推論速度和準確度保持之間提供不同的取捨。GPTQModel 讓您無需變更模型載入程式碼即可試驗所有方法。
支援哪些模型架構?
GPTQModel 支援超過 30 個模型家族,包括所有主要的開源 LLM。
| 模型家族 | 支援的變體 | 量化方法 |
|---|---|---|
| LLaMA / Llama 2 / Llama 3 | 7B、13B、70B、405B | GPTQ、AWQ、GGUF |
| Mistral / Mixtral | 7B、8x7B、8x22B | GPTQ、AWQ、GGUF |
| Qwen / Qwen2 | 1.8B、7B、14B、72B | GPTQ、AWQ、GGUF |
| DeepSeek | 67B、V2、V3 | GPTQ、AWQ |
| Falcon | 7B、40B、180B | GPTQ、GGUF |
| Phi-3 / Phi-4 | Mini、Small、Medium | GPTQ、AWQ |
| Gemma / Gemma 2 | 2B、7B、27B | GPTQ、AWQ |
隨著開源 LLM 格局的演進,新的架構會定期加入。
如何安裝 GPTQModel?
安裝非常簡單,透過 pip 進行,並可選擇不同硬體後端的附加套件:
# 基本安裝
pip install gptqmodel
# 含 CUDA 支援
pip install gptqmodel[cuda]
# 含 AMD ROCm 支援
pip install gptqmodel[rocm]
# 含 Intel XPU 支援
pip install gptqmodel[intel]
# 完整安裝(所有後端)
pip install gptqmodel[all]
該函式庫會自動偵測您的硬體並選擇適當的核心後端。
GPTQModel 與 AutoGPTQ 相比如何?
GPTQModel 是 AutoGPTQ 的精神繼承者,在功能和效能上都有大幅改進。
| 特性 | GPTQModel | AutoGPTQ |
|---|---|---|
| 維護者 | ModelCloud(活躍中) | 社群(低活動量) |
| 量化方法 | GPTQ、AWQ、GGUF、Marlin、FP8 | 僅 GPTQ |
| 模型架構 | 30+ | 約 15 |
| 硬體支援 | CUDA、ROCm、Intel XPU、CPU | 僅 CUDA |
| Marlin 核心支援 | 有 | 無 |
| 批次量化 | 有 | 無 |
| 最新版本 | 2026(活躍中) | 2024(已停滯) |
大多數先前使用 AutoGPTQ 的團隊已遷移至 GPTQModel,以獲得更廣泛的方法支援、更好的核心效能和活躍的維護。
常見問題
什麼是 GPTQModel?
GPTQModel 是一個生產級 Python 量化工具包,適用於 LLM,支援在 Nvidia、AMD 和 Intel GPU 以及 CPU 推論上進行 GPTQ、AWQ、GGUF、Marlin 和 FP8 量化。
GPTQModel 支援哪些量化方法?
GPTQ(訓練後)、AWQ(啟動感知)、GGUF(GGML 格式)、Marlin(吞吐量優化 CUDA)和 FP8(Hopper GPU)。統一的 API 讓您無需變更應用程式程式碼即可切換方法。
支援哪些模型架構?
超過 30 個模型家族,包括 LLaMA 2/3、Mistral、Mixtral、Qwen 2、DeepSeek、Falcon、Phi-3/4、Gemma 2 等。新架構在發佈後數天內即可獲得支援。
如何安裝 GPTQModel?
基本套件使用 pip install gptqmodel。為特定硬體加入 extras:[cuda]、[rocm]、[intel] 或使用 [all] 安裝所有後端。
GPTQModel 與 AutoGPTQ 有何不同?
GPTQModel 是積極維護的繼承者,具有更廣泛的量化方法支援(AWQ、GGUF、Marlin、FP8 相較於僅 GPTQ)、更多的模型架構(30+ 相較於約 15 個),以及除 CUDA 外對 AMD 和 Intel 硬體的支援。
延伸閱讀
- GPTQModel GitHub 儲存庫
- GPTQ:生成式預訓練轉換器的精確訓練後量化
- AWQ:用於 LLM 壓縮和加速的啟動感知權重量化
- Hugging Face Optimum 量化指南
- ModelCloud 文件
flowchart LR
A[原始 FP16 模型] --> B{選擇方法}
B --> C[GPTQ]
B --> D[AWQ]
B --> E[GGUF]
B --> F[Marlin]
C --> G[校正資料集]
D --> G
E --> G
F --> G
G --> H[量化]
H --> I[量化後模型]
I --> J[部署]
J --> K[CUDA GPU]
J --> L[ROCm GPU]
J --> M[Intel GPU]
J --> N[CPU]graph TD
subgraph 各量化方式的效能表現
A[4 位元 GPTQ] --> B[記憶體減少 3.5 倍]
A --> C[相較 FP16 速度提升 1.2 倍]
D[4 位元 AWQ] --> E[記憶體減少 3.5 倍]
D --> F[相較 FP16 速度提升 1.3 倍]
G[4 位元 Marlin] --> H[記憶體減少 3.5 倍]
G --> I[相較 FP16 速度提升 2.0 倍]
end
無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分!