bitsandbytes:LLM 训练与推理必备的 k-bit 量化库
大型语言模型已经远远超出了消费级硬件的内存容量。一个 700 亿参数的模型在标准 16 位精度下需要 140 GB 的 GPU 内存——远远超过最昂贵的消费级 GPU。bitsandbytes 就是弥补这个差距的库,提供量化技术,使得在可负担的硬件上加载、训练和运行大型模型成为可能。
大型语言模型已经远远超出了消费级硬件的内存容量。一个 700 亿参数的模型在标准 16 位精度下需要 140 GB 的 GPU 内存——远远超过最昂贵的消费级 GPU。bitsandbytes 就是弥补这个差距的库,提供量化技术,使得在可负担的硬件上加载、训练和运行大型模型成为可能。
当 Apple 在 WWDC 2025 上宣布 Containerization 时,它代表了一个重大的战略转变:Apple 不仅提供一个容器工具,而是从底层开始为 macOS 构建原生的容器化堆栈。Containerization 是构成此堆栈编程化基础的 Swift 包,提供一个干净 …
多年来,在 macOS 上运行 Linux 容器一直需要一个 VM 层——Docker Desktop 的 Linux VM、Podman 的 podman-machine 或 Lima 基于 QEMU 的方法。这些解决方案可行,但会带来开销和复杂性。Apple Container 采取根 …
Claude Code 已成为最具能力的 AI 代码辅助工具之一,但其真正的潜力始终受限于您提供的知识和上下文。Anthropic Skills 完全消除了这一限制,它提供一个持续增长的预构建、可重复使用的代理技能集合,将 Claude Code 的能力扩展到软件开发的几乎每一个方面。
能够同时推理图像和文字的视觉语言模型(VLM)已成为 AI 研究中最活跃的领域之一。由 NVIDIA Labs(NVlabs)开发的 VILA(视觉语言模型)代表了一个全面的开源 VLM 家族,专为多图像推理、视频理解和视觉链式思考而设计。这些模型设计为可从边缘设备扩展到云端部署,适用于机 …
将大型语言模型部署到生产环境中,不仅仅是把权重加载到 GPU 上那么简单。要达到可接受的吞吐量和延迟,您需要内核融合、注意力机制优化、内存管理和量化——所有这些都要针对您的特定硬件进行调整。NVIDIA 的 TensorRT-LLM 在一个开源库中提供了所有这些功能,从 NVIDIA …