AI

LocalAI:自託管 OpenAI API 相容推理伺服器

LocalAI 是一個自託管的 OpenAI API 相容推理伺服器,用於本地 LLM、圖像生成、音訊轉錄和 TTS,支援 GPU 加速。

Keeping this site alive takes effort — your support means everything.
無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分! 無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分!
LocalAI:自託管 OpenAI API 相容推理伺服器

在本地運行 AI 模型具有不可否認的優勢:完整的資料隱私、無 API 成本、離線操作以及對模型選擇和配置的完全控制。但用本地替代方案取代雲端 AI 服務通常需要拼湊不同的工具——一個用於 LLM,另一個用於圖像生成,第三個用於語音辨識。LocalAI 透過提供一個單一的 OpenAI API 相容伺服器解決了這種碎片化問題,該伺服器涵蓋了 AI 能力的完整範圍。

LocalAI 是 OpenAI API 的即插即用替代方案,完全在自己的硬體上運行。任何與 OpenAI API 配合使用的應用程式——從簡單的聊天介面到複雜的代理框架——都可以透過更改單一配置參數(API 基礎 URL)重定向到 LocalAI。

該專案支援 LLM 文字生成(透過 llama.cpp、vLLM 和 Transformers 後端)、圖像生成(Stable Diffusion、FLUX)、音訊轉錄(Whisper)、文字轉語音(Piper、Coqui)、嵌入(用於 RAG 流程)和函數呼叫。所有這些都透過數千個現有工具和函式庫已經使用的相同標準 OpenAI API 端點提供服務。


LocalAI 的架構如何運作?

LocalAI 提供一個統一的 API 伺服器,將請求路由到適當的模型後端。

graph TD
    A[客戶端應用程式\nOpenAI SDK / LangChain / Curl] --> B[LocalAI API 伺服器\nOpenAI 相容端點]
    B --> C{按端點路由}
    C -->|/v1/chat/completions| D[LLM 後端\nllama.cpp / vLLM / Transformers]
    C -->|/v1/images/generations| E[圖像後端\nStable Diffusion / FLUX]
    C -->|/v1/audio/transcriptions| F[轉錄後端\nWhisper / Whisper.cpp]
    C -->|/v1/audio/speech| G[TTS 後端\nPiper / Coqui TTS]
    C -->|/v1/embeddings| H[嵌入後端\nSentence Transformers]
    C -->|/v1/models| I[模型管理\n列出可用模型]

模組化後端系統允許每個能力使用最合適的推理引擎,同時向客戶端呈現一致的 API 表面。


LocalAI 支援哪些模型後端?

LocalAI 支援多個推理後端,每個針對不同的模型類型和能力進行最佳化。

能力後端選項主要特性
LLM 文字生成llama.cpp、vLLM、Transformers、Mamba多後端、廣泛模型支援
圖像生成Diffusers、ComfyUIStable Diffusion 1.5/XL、FLUX、SD3
音訊轉錄Whisper、Whisper.cpp多語言、多種模型大小
文字轉語音Piper、Coqui、Edge-TTS多種聲音、語言
嵌入Sentence Transformers本地 RAG 支援
視覺/LLMLLava、BakLLaVA圖像理解

無需更改 API 即可切換後端的能力允許使用者針對其特定硬體和品質需求進行最佳化。


如何配置和部署 LocalAI?

LocalAI 支援針對不同基礎設施場景的多種部署方法。

部署方法命令最適合
Docker(建議)docker run -p 8080:8080 localai/localai:v2大多數使用者,GPU 傳遞
Docker 搭配 GPUdocker run --gpus all localai/localai:v2-gpu-nvidiaGPU 加速
KubernetesHelm chart生產叢集
二進位發布下載 + 運行裸機,無 Docker
從原始碼構建make build自訂修改

Docker 部署是最常見的方法,具有預構建的 CPU 專用、CUDA 和 Apple Silicon 映像。


LocalAI 如何與現有工具整合?

LocalAI 與 OpenAI API 的相容性意味著它幾乎可以與任何 OpenAI 相容的工具配合使用。

工具類別範例整合方法
聊天介面ChatBox、Open WebUI、NextChat將基礎 URL 設定為 LocalAI
代理框架LangChain、AutoGen、CrewAI更新 API 基礎配置
開發工具OpenAI Python SDK、curl更改 api_base 參數
RAG 流程LangChain RAG、LlamaIndex使用 LocalAI 作為 LLM + 嵌入
CI/CD 流程使用本地 AI 的自動化測試將測試指向本地端點

典型的整合涉及更改 openai.api_base = "http://localhost:8080/v1" 並將任何現有的 OpenAI 相容程式碼指向 LocalAI。


常見問題

什麼是 LocalAI? 自託管的 OpenAI API 相容推理伺服器,用於在本地硬體上運行 LLM、圖像生成、音訊轉錄和 TTS。

提供哪些能力? 文字生成、圖像生成、音訊轉錄、TTS、嵌入和函數呼叫。

如何實現 API 相容性? 實作與 OpenAI 相同的 REST API 端點。

需要什麼硬體? LLM 需要 4-48GB+ RAM;圖像生成需要 8-24GB GPU VRAM。

與 Ollama 相比如何? LocalAI 涵蓋更廣泛的模態(文字、圖像、音訊、嵌入);Ollama 專注於 LLM。


延伸閱讀

TAG