LLM 推理

AI May 05, 2026

LocalAI：自托管 OpenAI API 兼容推理服务器

在本地运行 AI 模型具有无可否认的优势：完全的数据隐私、无需 API 费用、离线操作，以及对模型选择和配置的完全控制。但用本地 AI 服务替代云 AI 服务通常需要拼凑不同的工具——一个用于 LLM，另一个用于图片生成，第三个用于语音识别。LocalAI 通过提供一个单一的、OpenAI …

AI May 05, 2026

llama.cpp 已发展成为通用推理引擎，支持数百种模型架构和多种后端。 graph TD A[GGUF 模型文件] --> B[llama.cpp 推理引擎] B --> C[CPU 后端\nx86 搭配 AVX2/AVX-512\nARM 搭配 NEON] B …

AI May 04, 2026

在本地运行大型语言模型一直受到一道难以逾越的限制：GPU 内存。一个 1750 亿参数的 FP16 模型需要约 350GB 的 VRAM——远远超出 RTX 4090 等消费级 GPU 所能提供的 24GB。服务器级的解决方案（A100、H100）确实存在，但它们的价格高达数万美元 …