AI

Xorbits Inference:可擴展的 LLM 服務平台

Xorbits Inference 是一個可擴展的 LLM 服務平台,用於在生產環境中部署和管理大型語言模型,支援多模型。

Keeping this site alive takes effort — your support means everything.
無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分! 無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分!
Xorbits Inference:可擴展的 LLM 服務平台

在生產環境中部署大型語言模型與訓練它們是完全不同的挑戰。訓練需要大規模叢集和數週的運算時間,但可以容忍批次處理和可變吞吐量。生產推論需要一致的亞秒級延遲、彈性擴展以應對流量高峰、跨不同硬體配置的多模型管理,以及對每個請求的可觀測性。訓練好的模型與生產級服務基礎設施之間的差距是巨大的。

Xorbits Inference(Xinference) 以一個專為可擴展 LLM 服務而建的開源平台填補了這個差距。最初作為 Xorbits 生態系統中分散式資料處理的一部分而開發,Xinference 已成長為最全面的開源模型服務平台之一。它支援廣泛的模型架構——從 LLM 和嵌入模型到視覺語言和音訊模型——並提供大規模可靠運行所需的營運工具。

Xinference 與 vLLM、TGI 和 Ollama 等替代方案的區別在於其模型支援的廣度和營運功能。vLLM 專注於高吞吐量 LLM 服務,Ollama 針對本地開發,而 Xinference 旨在成為涵蓋整個範圍的單一平台:從在筆記型電腦上運行模型的單一開發者,到服務數百萬請求、跨數十種模型變體的生產叢集。

支援的模型類別

Xinference 支援令人印象深刻的廣泛模型類型,每種都有優化的服務配置:

模型類型範例使用案例
LLMLLaMA 3、Qwen 2.5、Mistral、Phi-4、DeepSeek聊天、程式碼生成、文字完成
嵌入BGE、E5、Instructor、Jina向量搜尋、RAG 管線
重新排序BGE Reranker、Cohere Rerank搜尋結果重新排序
圖片生成Stable Diffusion 3、FLUX、DALL-E從文字建立圖片
音訊Whisper、Bark、ChatTTS語音轉文字、文字轉語音
視覺語言LLaVA、Qwen-VL、InternVL圖片說明、視覺問答

多模型服務架構

下圖顯示 Xinference 如何在 GPU 節點叢集中管理多個模型:

閘道處理請求路由,模型路由器決定哪個模型實例應處理每個請求,每個模型實例可以獨立擴展、更新或替換,而不會影響其他實例。這種架構對於生產部署至關重要,因為不同團隊可能擁有不同流量模式的不同模型。

擴展與效能

Xinference 提供多個擴展維度來處理生產流量:

策略機制擴展時間最適用於
垂直擴展增加 GPU 記憶體/每個實例的核心數數分鐘單一大模型最佳化
水平擴展新增更多模型副本數秒流量高峰、高並發
投機擴展在同一個 GPU 上批次處理對同一模型的請求毫秒高吞吐量、低變異性工作負載
模型並行將單個模型分片到多個 GPU數小時一個 GPU 無法容納的模型

開始使用

Xinference 可透過 pip 安裝並在數分鐘內啟動:

pip install "xorbits[inference]"
xinference

這將在連接埠 9997 上啟動 Xinference 服務,提供用於模型管理的 Web UI 和 OpenAI 相容的 API 端點。請造訪 Xorbits Inference GitHub 儲存庫 取得安裝指南、模型配置範例和部署最佳實務。

Xinference 文件入口網站 提供 Kubernetes 部署、GPU 配置、量化設定和 API 整合的全面指南。

常見問題

什麼是 Xorbits Inference?

Xorbits Inference(Xinference)是一個開源平台,用於在生產環境中部署、服務和管理大型語言模型及其他 AI 模型。它為多種模型類型提供統一 API、自動擴展和全面監控。

Xorbits Inference 支援哪些模型類型?

Xinference 支援 LLM(包括 LLaMA、Qwen、Mistral、Phi 等)、嵌入模型、重新排序模型、圖片生成模型(Stable Diffusion)、音訊模型(Whisper、Bark)和視覺語言模型(LLaVA、Qwen-VL)。

Xorbits 如何處理擴展?

Xinference 支援跨多個 GPU 節點的橫向擴展。可以按需啟動新的模型副本,內建負載平衡器將請求分配到可用的副本。它與 Kubernetes 整合,可根據佇列深度和 GPU 利用率等指標進行自動擴展。

Xorbits 支援量化嗎?

是的。Xinference 支援多種量化方法,包括 4 位元和 8 位元精度的 GPTQ、AWQ、GGUF 和 bitsandbytes。這使得在有限的 GPU 硬體上執行更大的模型成為可能,且品質下降最小。

Xorbits 提供哪些 API?

Xinference 為 LLM(聊天完成、完成、嵌入)提供 OpenAI 相容的 API 端點、用於模型管理的 REST API、用於程式化控制的 Python SDK,以及用於互動式模型探索和管理的 Web UI。


延伸閱讀

TAG