Categories

Machine Learning

TensorRT-LLM:NVIDIA 的开源优化 LLM 推理库
AI

TensorRT-LLM:NVIDIA 的开源优化 LLM 推理库

将大型语言模型部署到生产环境中,不仅仅是把权重加载到 GPU 上那么简单。要达到可接受的吞吐量和延迟,您需要内核融合、注意力机制优化、内存管理和量化——所有这些都要针对您的特定硬件进行调整。NVIDIA 的 TensorRT-LLM 在一个开源库中提供了所有这些功能,从 NVIDIA …

GPTQModel:适用于 GPU 和 CPU 的生产级 LLM 量化工具包
AI

GPTQModel:适用于 GPU 和 CPU 的生产级 LLM 量化工具包

大型语言模型功能强大,但其体积使得部署成本高昂。一个 700 亿参数的 16 位精度模型需要 140GB 的 GPU 内存——远超单一消费级 GPU 的容量。量化是主要的解决方案:降低数值精度以缩小内存占用并加速推理。由 ModelCloud 开发的 GPTQModel 是一个生产级量化工 …

TAG
CATEGORIES