AI

GPTQModel:適用於 GPU 和 CPU 的生產級 LLM 量化工具包

GPTQModel 是一個生產級 LLM 量化工具包,支援 Nvidia、AMD、Intel GPU 及 CPU 上的 GPTQ、AWQ、GGUF,涵蓋 30 多種模型架構。

Keeping this site alive takes effort — your support means everything.
無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分! 無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分!
GPTQModel:適用於 GPU 和 CPU 的生產級 LLM 量化工具包

大型語言模型功能強大,但其體積使得部署成本高昂。一個 700 億參數的 16 位元精確度模型需要 140GB 的 GPU 記憶體——遠超單一消費級 GPU 的容量。量化是主要的解決方案:降低數值精確度以縮小記憶體佔用並加速推論。由 ModelCloud 開發的 GPTQModel 是一個生產級量化工具包,在各種硬體上都能實際應用。

GPTQModel 將多種量化方法——GPTQ、AWQ 和 GGUF——統一在單一 API 之下,支援 Nvidia、AMD、Intel GPU 以及 CPU 推論上的 30 多種模型架構。位於 github.com/ModelCloud/GPTQModel 的專案已迅速成為需要將 LLM 部署到生產環境、又不想受限於單一量化格式的團隊的首選量化函式庫。

該函式庫處理整個量化工作流程:校正資料集準備、量化執行、模型評估和匯出。它支援即時量化和從 Hugging Face 載入預量化模型,對於一次性實驗和自動化部署管線都同樣有用。

什麼是 GPTQModel?

GPTQModel 是一個針對大型語言模型的全面量化工具包。它提供統一的 Python API,可分別使用 GPTQ(訓練後量化)、AWQ(啟動感知權重量化)和 GGUF(GGML 通用格式)對模型進行量化。該函式庫專為生產使用而設計,支援批次量化、分散式校正和廣泛的模型架構覆蓋。

GPTQModel 支援哪些量化方法?

方法精確度最適合硬體
GPTQ2-8 位元一般 GPU 推論CUDA、ROCm、Intel XPU
AWQ4 位元困惑度敏感任務CUDA、ROCm
GGUF2-8 位元CPU 和混合推論CPU、Metal、CUDA
Marlin4 位元吞吐量優化 CUDA僅 CUDA
FP88 位元Hopper GPU(H100/H200)CUDA(SM 90+)

每種方法在壓縮比、推論速度和準確度保持之間提供不同的取捨。GPTQModel 讓您無需變更模型載入程式碼即可試驗所有方法。

支援哪些模型架構?

GPTQModel 支援超過 30 個模型家族,包括所有主要的開源 LLM。

模型家族支援的變體量化方法
LLaMA / Llama 2 / Llama 37B、13B、70B、405BGPTQ、AWQ、GGUF
Mistral / Mixtral7B、8x7B、8x22BGPTQ、AWQ、GGUF
Qwen / Qwen21.8B、7B、14B、72BGPTQ、AWQ、GGUF
DeepSeek67B、V2、V3GPTQ、AWQ
Falcon7B、40B、180BGPTQ、GGUF
Phi-3 / Phi-4Mini、Small、MediumGPTQ、AWQ
Gemma / Gemma 22B、7B、27BGPTQ、AWQ

隨著開源 LLM 格局的演進,新的架構會定期加入。

如何安裝 GPTQModel?

安裝非常簡單,透過 pip 進行,並可選擇不同硬體後端的附加套件:

# 基本安裝
pip install gptqmodel

# 含 CUDA 支援
pip install gptqmodel[cuda]

# 含 AMD ROCm 支援
pip install gptqmodel[rocm]

# 含 Intel XPU 支援
pip install gptqmodel[intel]

# 完整安裝(所有後端)
pip install gptqmodel[all]

該函式庫會自動偵測您的硬體並選擇適當的核心後端。

GPTQModel 與 AutoGPTQ 相比如何?

GPTQModel 是 AutoGPTQ 的精神繼承者,在功能和效能上都有大幅改進。

特性GPTQModelAutoGPTQ
維護者ModelCloud(活躍中)社群(低活動量)
量化方法GPTQ、AWQ、GGUF、Marlin、FP8僅 GPTQ
模型架構30+約 15
硬體支援CUDA、ROCm、Intel XPU、CPU僅 CUDA
Marlin 核心支援
批次量化
最新版本2026(活躍中)2024(已停滯)

大多數先前使用 AutoGPTQ 的團隊已遷移至 GPTQModel,以獲得更廣泛的方法支援、更好的核心效能和活躍的維護。

常見問題

什麼是 GPTQModel?

GPTQModel 是一個生產級 Python 量化工具包,適用於 LLM,支援在 Nvidia、AMD 和 Intel GPU 以及 CPU 推論上進行 GPTQ、AWQ、GGUF、Marlin 和 FP8 量化。

GPTQModel 支援哪些量化方法?

GPTQ(訓練後)、AWQ(啟動感知)、GGUF(GGML 格式)、Marlin(吞吐量優化 CUDA)和 FP8(Hopper GPU)。統一的 API 讓您無需變更應用程式程式碼即可切換方法。

支援哪些模型架構?

超過 30 個模型家族,包括 LLaMA 2/3、Mistral、Mixtral、Qwen 2、DeepSeek、Falcon、Phi-3/4、Gemma 2 等。新架構在發佈後數天內即可獲得支援。

如何安裝 GPTQModel?

基本套件使用 pip install gptqmodel。為特定硬體加入 extras:[cuda][rocm][intel] 或使用 [all] 安裝所有後端。

GPTQModel 與 AutoGPTQ 有何不同?

GPTQModel 是積極維護的繼承者,具有更廣泛的量化方法支援(AWQ、GGUF、Marlin、FP8 相較於僅 GPTQ)、更多的模型架構(30+ 相較於約 15 個),以及除 CUDA 外對 AMD 和 Intel 硬體的支援。

延伸閱讀

TAG