AI

GPTQModel:适用于 GPU 和 CPU 的生产级 LLM 量化工具包

GPTQModel 是一个生产级 LLM 量化工具包,支持 Nvidia、AMD、Intel GPU 及 CPU 上的 GPTQ、AWQ、GGUF,涵盖 30 多种模型架构。

Keeping this site alive takes effort — your support means everything.
無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分! 無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分!
GPTQModel:适用于 GPU 和 CPU 的生产级 LLM 量化工具包

大型语言模型功能强大,但其体积使得部署成本高昂。一个 700 亿参数的 16 位精度模型需要 140GB 的 GPU 内存——远超单一消费级 GPU 的容量。量化是主要的解决方案:降低数值精度以缩小内存占用并加速推理。由 ModelCloud 开发的 GPTQModel 是一个生产级量化工具包,在各种硬件上都能实际应用。

GPTQModel 将多种量化方法——GPTQ、AWQ 和 GGUF——统一在单一 API 之下,支持 Nvidia、AMD、Intel GPU 以及 CPU 推理上的 30 多种模型架构。位于 github.com/ModelCloud/GPTQModel 的项目已迅速成为需要将 LLM 部署到生产环境、又不想受限单一量化格式的团队的首选量化库。

该库处理整个量化工作流程:校准数据集准备、量化执行、模型评估和导出。它支持即时量化和从 Hugging Face 加载预量化模型,对于一次性实验和自动化部署管道都同样有用。

什么是 GPTQModel?

GPTQModel 是一个针对大型语言模型的全面量化工具包。它提供统一的 Python API,可分别使用 GPTQ(训练后量化)、AWQ(激活感知权重量化)和 GGUF(GGML 通用格式)对模型进行量化。该库专为生产使用而设计,支持批量量化、分布式校准和广泛的模型架构覆盖。

GPTQModel 支持哪些量化方法?

方法精度最适合硬件
GPTQ2-8 位一般 GPU 推理CUDA、ROCm、Intel XPU
AWQ4 位困惑度敏感任务CUDA、ROCm
GGUF2-8 位CPU 和混合推理CPU、Metal、CUDA
Marlin4 位吞吐量优化 CUDA仅 CUDA
FP88 位Hopper GPU(H100/H200)CUDA(SM 90+)

每种方法在压缩比、推理速度和准确度保持之间提供不同的取舍。GPTQModel 让您无需更改模型加载代码即可试验所有方法。

支持哪些模型架构?

GPTQModel 支持超过 30 个模型家族,包括所有主要的开源 LLM。

模型家族支持的变体量化方法
LLaMA / Llama 2 / Llama 37B、13B、70B、405BGPTQ、AWQ、GGUF
Mistral / Mixtral7B、8x7B、8x22BGPTQ、AWQ、GGUF
Qwen / Qwen21.8B、7B、14B、72BGPTQ、AWQ、GGUF
DeepSeek67B、V2、V3GPTQ、AWQ
Falcon7B、40B、180BGPTQ、GGUF
Phi-3 / Phi-4Mini、Small、MediumGPTQ、AWQ
Gemma / Gemma 22B、7B、27BGPTQ、AWQ

随着开源 LLM 格局的演进,新的架构会定期添加。

如何安装 GPTQModel?

安装非常简单,通过 pip 进行,并可选择不同硬件后端的附加包:

# 基本安装
pip install gptqmodel

# 含 CUDA 支持
pip install gptqmodel[cuda]

# 含 AMD ROCm 支持
pip install gptqmodel[rocm]

# 含 Intel XPU 支持
pip install gptqmodel[intel]

# 完整安装(所有后端)
pip install gptqmodel[all]

该库会自动检测您的硬件并选择适当的内核后端。

GPTQModel 与 AutoGPTQ 相比如何?

GPTQModel 是 AutoGPTQ 的精神继承者,在功能和性能上都有大幅改进。

特性GPTQModelAutoGPTQ
维护者ModelCloud(活跃中)社区(低活跃度)
量化方法GPTQ、AWQ、GGUF、Marlin、FP8仅 GPTQ
模型架构30+约 15
硬件支持CUDA、ROCm、Intel XPU、CPU仅 CUDA
Marlin 内核支持
批量量化
最新版本2026(活跃中)2024(已停滞)

大多数先前使用 AutoGPTQ 的团队已迁移至 GPTQModel,以获得更广泛的方法支持、更好的内核性能和活跃的维护。

常见问题

什么是 GPTQModel?

GPTQModel 是一个生产级 Python 量化工具包,适用于 LLM,支持在 Nvidia、AMD 和 Intel GPU 以及 CPU 推理上进行 GPTQ、AWQ、GGUF、Marlin 和 FP8 量化。

GPTQModel 支持哪些量化方法?

GPTQ(训练后)、AWQ(激活感知)、GGUF(GGML 格式)、Marlin(吞吐量优化 CUDA)和 FP8(Hopper GPU)。统一的 API 让您无需更改应用程序代码即可切换方法。

支持哪些模型架构?

超过 30 个模型家族,包括 LLaMA 2/3、Mistral、Mixtral、Qwen 2、DeepSeek、Falcon、Phi-3/4、Gemma 2 等。新架构在发布后数天内即可获得支持。

如何安装 GPTQModel?

基础包使用 pip install gptqmodel。为特定硬件添加 extras:[cuda][rocm][intel] 或使用 [all] 安装所有后端。

GPTQModel 与 AutoGPTQ 有何不同?

GPTQModel 是积极维护的继承者,具有更广泛的量化方法支持(AWQ、GGUF、Marlin、FP8 相较于仅 GPTQ)、更多的模型架构(30+ 相较于约 15 个),以及除 CUDA 外对 AMD 和 Intel 硬件的支持。

延伸阅读

TAG
CATEGORIES