AI

ExLlamaV3:高性能 LLM 推理引擎

ExLlamaV3 是一个针对 Llama 和 EXL3 量化模型优化的高性能推理引擎,可在消费级 GPU 上实现最大吞吐量。

Keeping this site alive takes effort — your support means everything.
無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分! 無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分!
ExLlamaV3:高性能 LLM 推理引擎

在消费级硬件上运行大型语言模型需要高效的推理引擎,从可用的 GPU 内存中榨取每一滴性能。由 turboderp 团队开发的 ExLlamaV3 是可用的最快推理引擎之一,特别是使用 EXL3 量化格式时。

ExLlamaV3 通过优化 CUDA 内核、高效内存管理和量化感知计算的组合来实现其速度。它支持 4 位和 8 位 EXL3 量化、动态批处理和推测解码。对于在消费级 GPU 上运行本地模型的用户,它始终提供最高的每秒 token 吞吐量。

性能基准

模型GPU量化速度(token/秒)内存使用
Llama 3.1 8BRTX 4090 24GBEXL3 4 位1806 GB
Llama 3.1 70BRTX 4090 24GBEXL3 4 位3022 GB
Mistral 7BRTX 3060 12GBEXL3 4 位855 GB
Qwen 2.5 32BRTX 4090 24GBEXL3 4 位5518 GB

主要功能

功能描述优势
EXL3 量化专门的 4 位和 8 位格式每 bit 最高质量
CUDA 内核优化融合注意力、闪存解码最大吞吐量
动态批处理同时处理多个请求更高利用率
推测解码草稿再验证以实现更快生成某些任务加速 2 倍
LoRA 支持运行时加载和切换 LoRA 适配器灵活的微调

推理管线

管线通过具有专门 CUDA 内核的 Transformer 层处理 token,用于注意力和前馈计算。KV 缓存在 GPU 内存中高效维护,推测解码可以通过一次验证多个 token 来加速生成。

推理引擎比较

功能ExLlamaV3llama.cppvLLMTransformers
GPU 支持完整(CUDA)部分(CUDA/Metal)完整(CUDA)完整(CUDA)
量化仅 EXL3GGUFAWQ/GPTQBitsAndBytes
批量推理有限
速度(8B)180 t/s120 t/s160 t/s40 t/s
API 服务器内建通过 llama-server内建通过 TGI

如需更多信息,请访问 ExLlamaV3 GitHub 仓库EXL3 量化规范

常见问题

Q:运行 ExLlamaV3 需要什么 GPU? A:任何支持 CUDA 且至少 6GB VRAM 的 NVIDIA GPU 可用于 7B 模型。

Q:ExLlamaV3 可以在 AMD GPU 上运行吗? A:目前仅限 NVIDIA CUDA。AMD ROCm 支持正在开发中。

Q:EXL3 与 GGUF 量化相比如何? A:EXL3 通常在相同比特率下提供更高的准确度和更快的 GPU 推理。

Q:ExLlamaV3 支持多 GPU 推理吗? A:是的,它支持跨多个 GPU 的张量并行,用于较大的模型。

Q:我可以将 LoRA 适配器与 ExLlamaV3 一起使用吗? A:是的,LoRA 适配器可以加载和切换,无需重新加载基础模型。

TAG
CATEGORIES