Quantization

AI May 05, 2026

ExLlamaV3：高性能 LLM 推理引擎

在消费级硬件上运行大型语言模型需要高效的推理引擎，从可用的 GPU 内存中榨取每一滴性能。由 turboderp 团队开发的 ExLlamaV3 是可用的最快推理引擎之一，特别是使用 EXL3 量化格式时。 ExLlamaV3 通过优化 CUDA 内核、高效内存管理和量化感知计算的组合来实 …

AI May 05, 2026

llama.cpp 生态系统产生了許多分支，每个分支探索在消費級硬体上高效执行 LLM 的不同最佳化策略。ik_llama.cpp（GitHub 上的 ikawrakow/ik_llama.cpp）是其中最具有技术意義的分支之一，引入了先进的量化方法，推动了低位元模型壓縮的可能性邊界。

AI May 05, 2026

The promise of running LLMs locally on a MacBook has been seductive but incomplete. Ollama and llama.cpp made it possible, but performance left …

AI May 04, 2026

大型语言模型已经远远超出了消费级硬件的内存容量。一个 700 亿参数的模型在标准 16 位精度下需要 140 GB 的 GPU 内存——远远超过最昂贵的消费级 GPU。bitsandbytes 就是弥补这个差距的库，提供量化技术，使得在可负担的硬件上加载、训练和运行大型模型成为可能。

AI May 03, 2026

将大型语言模型部署到生产环境中，不仅仅是把权重加载到 GPU 上那么简单。要达到可接受的吞吐量和延迟，您需要内核融合、注意力机制优化、内存管理和量化——所有这些都要针对您的特定硬件进行调整。NVIDIA 的 TensorRT-LLM 在一个开源库中提供了所有这些功能，从 NVIDIA …

AI May 03, 2026

大型语言模型功能强大，但其体积使得部署成本高昂。一个 700 亿参数的 16 位精度模型需要 140GB 的 GPU 内存——远超单一消费级 GPU 的容量。量化是主要的解决方案：降低数值精度以缩小内存占用并加速推理。由 ModelCloud 开发的 GPTQModel 是一个生产级量化工 …