GPTQModel：适用于 GPU 和 CPU 的生产级 LLM 量化工具包

GPTQModel 是一个生产级 LLM 量化工具包，支持 Nvidia、AMD、Intel GPU 及 CPU 上的 GPTQ、AWQ、GGUF，涵盖 30 多种模型架构。

Keeping this site alive takes effort — your support means everything.

無程式碼也能輕鬆打造專業LINE官方帳號！一鍵導入模板，讓AI助你行銷加分！

技术编辑团队 May 03, 2026 阅读 10 分钟

大型语言模型功能强大，但其体积使得部署成本高昂。一个 700 亿参数的 16 位精度模型需要 140GB 的 GPU 内存——远超单一消费级 GPU 的容量。量化是主要的解决方案：降低数值精度以缩小内存占用并加速推理。由 ModelCloud 开发的 GPTQModel 是一个生产级量化工具包，在各种硬件上都能实际应用。

GPTQModel 将多种量化方法——GPTQ、AWQ 和 GGUF——统一在单一 API 之下，支持 Nvidia、AMD、Intel GPU 以及 CPU 推理上的 30 多种模型架构。位于 github.com/ModelCloud/GPTQModel 的项目已迅速成为需要将 LLM 部署到生产环境、又不想受限单一量化格式的团队的首选量化库。

该库处理整个量化工作流程：校准数据集准备、量化执行、模型评估和导出。它支持即时量化和从 Hugging Face 加载预量化模型，对于一次性实验和自动化部署管道都同样有用。

什么是 GPTQModel？

GPTQModel 是一个针对大型语言模型的全面量化工具包。它提供统一的 Python API，可分别使用 GPTQ（训练后量化）、AWQ（激活感知权重量化）和 GGUF（GGML 通用格式）对模型进行量化。该库专为生产使用而设计，支持批量量化、分布式校准和广泛的模型架构覆盖。

GPTQModel 支持哪些量化方法？

方法	精度	最适合	硬件
GPTQ	2-8 位	一般 GPU 推理	CUDA、ROCm、Intel XPU
AWQ	4 位	困惑度敏感任务	CUDA、ROCm
GGUF	2-8 位	CPU 和混合推理	CPU、Metal、CUDA
Marlin	4 位	吞吐量优化 CUDA	仅 CUDA
FP8	8 位	Hopper GPU（H100/H200）	CUDA（SM 90+）

每种方法在压缩比、推理速度和准确度保持之间提供不同的取舍。GPTQModel 让您无需更改模型加载代码即可试验所有方法。

支持哪些模型架构？

GPTQModel 支持超过 30 个模型家族，包括所有主要的开源 LLM。

模型家族	支持的变体	量化方法
LLaMA / Llama 2 / Llama 3	7B、13B、70B、405B	GPTQ、AWQ、GGUF
Mistral / Mixtral	7B、8x7B、8x22B	GPTQ、AWQ、GGUF
Qwen / Qwen2	1.8B、7B、14B、72B	GPTQ、AWQ、GGUF
DeepSeek	67B、V2、V3	GPTQ、AWQ
Falcon	7B、40B、180B	GPTQ、GGUF
Phi-3 / Phi-4	Mini、Small、Medium	GPTQ、AWQ
Gemma / Gemma 2	2B、7B、27B	GPTQ、AWQ

随着开源 LLM 格局的演进，新的架构会定期添加。

如何安装 GPTQModel？

安装非常简单，通过 pip 进行，并可选择不同硬件后端的附加包：

# 基本安装
pip install gptqmodel

# 含 CUDA 支持
pip install gptqmodel[cuda]

# 含 AMD ROCm 支持
pip install gptqmodel[rocm]

# 含 Intel XPU 支持
pip install gptqmodel[intel]

# 完整安装（所有后端）
pip install gptqmodel[all]

该库会自动检测您的硬件并选择适当的内核后端。

GPTQModel 与 AutoGPTQ 相比如何？

GPTQModel 是 AutoGPTQ 的精神继承者，在功能和性能上都有大幅改进。

特性	GPTQModel	AutoGPTQ
维护者	ModelCloud（活跃中）	社区（低活跃度）
量化方法	GPTQ、AWQ、GGUF、Marlin、FP8	仅 GPTQ
模型架构	30+	约 15
硬件支持	CUDA、ROCm、Intel XPU、CPU	仅 CUDA
Marlin 内核支持	有	无
批量量化	有	无
最新版本	2026（活跃中）	2024（已停滞）

大多数先前使用 AutoGPTQ 的团队已迁移至 GPTQModel，以获得更广泛的方法支持、更好的内核性能和活跃的维护。

常见问题

什么是 GPTQModel？

GPTQModel 是一个生产级 Python 量化工具包，适用于 LLM，支持在 Nvidia、AMD 和 Intel GPU 以及 CPU 推理上进行 GPTQ、AWQ、GGUF、Marlin 和 FP8 量化。

GPTQModel 支持哪些量化方法？

GPTQ（训练后）、AWQ（激活感知）、GGUF（GGML 格式）、Marlin（吞吐量优化 CUDA）和 FP8（Hopper GPU）。统一的 API 让您无需更改应用程序代码即可切换方法。

支持哪些模型架构？

超过 30 个模型家族，包括 LLaMA 2/3、Mistral、Mixtral、Qwen 2、DeepSeek、Falcon、Phi-3/4、Gemma 2 等。新架构在发布后数天内即可获得支持。

如何安装 GPTQModel？

基础包使用 pip install gptqmodel。为特定硬件添加 extras：[cuda]、[rocm]、[intel] 或使用 [all] 安装所有后端。

GPTQModel 与 AutoGPTQ 有何不同？

GPTQModel 是积极维护的继承者，具有更广泛的量化方法支持（AWQ、GGUF、Marlin、FP8 相较于仅 GPTQ）、更多的模型架构（30+ 相较于约 15 个），以及除 CUDA 外对 AMD 和 Intel 硬件的支持。

延伸阅读

flowchart LR
    A[原始 FP16 模型] --> B{选择方法}
    B --> C[GPTQ]
    B --> D[AWQ]
    B --> E[GGUF]
    B --> F[Marlin]
    C --> G[校准数据集]
    D --> G
    E --> G
    F --> G
    G --> H[量化]
    H --> I[量化后模型]
    I --> J[部署]
    J --> K[CUDA GPU]
    J --> L[ROCm GPU]
    J --> M[Intel GPU]
    J --> N[CPU]

graph TD
    subgraph 各量化方式的性能表现
        A[4 位 GPTQ] --> B[内存减少 3.5 倍]
        A --> C[相较 FP16 速度提升 1.2 倍]
        D[4 位 AWQ] --> E[内存减少 3.5 倍]
        D --> F[相较 FP16 速度提升 1.3 倍]
        G[4 位 Marlin] --> H[内存减少 3.5 倍]
        G --> I[相较 FP16 速度提升 2.0 倍]
    end

GPTQModel：适用于 GPU 和 CPU 的生产级 LLM 量化工具包

什么是 GPTQModel？

GPTQModel 支持哪些量化方法？

支持哪些模型架构？

如何安装 GPTQModel？

GPTQModel 与 AutoGPTQ 相比如何？

常见问题

什么是 GPTQModel？

GPTQModel 支持哪些量化方法？

支持哪些模型架构？

如何安装 GPTQModel？

GPTQModel 与 AutoGPTQ 有何不同？

延伸阅读

LATEST POST

马斯克、库克与芬克预计本周随特朗普访中代表团赴北京

佛州大学毕业典礼演讲者遭嘘声凸显世代价值观断层与言论风险

Workday、Anthropic 与 LISC 联手推出 AI 一人创业加速器

TAG

CATEGORIES

GPTQModel：适用于 GPU 和 CPU 的生产级 LLM 量化工具包

什么是 GPTQModel？

GPTQModel 支持哪些量化方法？

支持哪些模型架构？

如何安装 GPTQModel？

GPTQModel 与 AutoGPTQ 相比如何？

常见问题

什么是 GPTQModel？

GPTQModel 支持哪些量化方法？

支持哪些模型架构？

如何安装 GPTQModel？

GPTQModel 与 AutoGPTQ 有何不同？

延伸阅读

LATEST POST

马斯克、库克与芬克预计本周随特朗普访中代表团赴北京

佛州大学毕业典礼演讲者遭嘘声 凸显世代价值观断层与言论风险

Workday、Anthropic 与 LISC 联手推出 AI 一人创业加速器

TAG

CATEGORIES

佛州大学毕业典礼演讲者遭嘘声凸显世代价值观断层与言论风险