AI

Pixelle-MCP:透過 MCP 橋接 ComfyUI 與 LLM 的開源多模態 AIGC 解決方案

Pixelle-MCP 是阿里巴巴 AIDC-AI 的開源多模態 AIGC 解決方案,可將 ComfyUI 工作流程轉換為 MCP 工具,供任何 MCP 相容用戶端使用。

Pixelle-MCP:透過 MCP 橋接 ComfyUI 與 LLM 的開源多模態 AIGC 解決方案

模型上下文協議 (MCP) 正在重塑 AI 應用程式的通訊方式,但大多數 MCP 工具仍然狹隘地專注於文字和資料查詢。Pixelle-MCP 打破了這個限制,將 ComfyUI——最受歡迎的 AI 生成內容視覺工作流程引擎——轉變為一個完整的多模態 MCP 伺服器。由阿里巴巴的 AIDC-AI 團隊開發,這個開源解決方案讓任何 MCP 相容用戶端都可以使用自然語言調用複雜的 AIGC 管線,用於圖片、聲音、影片和文字。

Pixelle-MCP 背後的核心見解非常優雅:它不是從頭建立多模態生成能力,而是將 ComfyUI 龐大的社群建構工作流程生態系統重新用作 MCP 可調用的工具。任何設計過用於 stable diffusion、音訊生成或影片合成的 ComfyUI 管線的人,現在都可以將該工作流程作為簡單的 API 公開給任何 LLM 用戶端,無需額外的程式碼。

自發佈以來,Pixelle-MCP 已吸引了 ComfyUI 社群和更廣泛 MCP 生態系統的重大關注,在 GitHub 上累積了約 920 顆星,並透過持續的架構改進進行活躍開發。


Pixelle-MCP 如何橋接 ComfyUI 和 LLM?

Pixelle-MCP 充當一個智慧中間層。當 LLM 用戶端透過 MCP 請求圖片生成時,伺服器將該請求轉換為 ComfyUI 工作流程參數,在本地或雲端 ComfyUI 實例上執行工作流程,並將生成的資產——圖片、音訊檔案或影片——透過 MCP 協議回傳。

這個架構意味著使用者可以發送單一的自然語言請求,例如「生成一張賽博龐克城市景觀的電影級圖片,並配上環境雨聲」,Pixelle-MCP 就會自動跨多個模態編排適當的 ComfyUI 工作流程。


Pixelle-MCP 支援哪些模態?

該平台支援完整的 TISV(文字、圖片、聲音、影片)堆疊,涵蓋所有四種主要的內容生成模態。

模態生成能力使用案例範例
文字LLM 驅動的生成、摘要、翻譯動態提示詞、內容工作流程
圖片Stable Diffusion、ControlNet、IP-Adapter、放大行銷視覺、概念藝術
聲音文字轉語音、音樂生成、音效旁白、環境音訊
影片文字轉影片、幀插值、動畫短影片、動態圖形

這種方法的強大之處在於 ComfyUI 的模組化:由於 ComfyUI 工作流程可以將任意節點串聯在一起,Pixelle-MCP 繼承了在單一管線中組合多種模態的能力。一個工作流程可以生成圖片、添加旁白並將結果編譯成影片——全部透過單一的 MCP 工具調用。


如何開始使用 Pixelle-MCP?

Pixelle-MCP 提供三種部署方法,適合不同的技能等級和基礎設施偏好。

方法命令最適合
uvx(一鍵)uvx pixelle@latest快速測試,無需安裝
pip installpip install -U pixelle && pixellePython 開發者
Docker Composegit clone repo && docker compose up -d生產部署

建議在生產環境中使用 Docker 方法,因為它包含所有依賴項並在隔離環境中執行。所有方法都將 Web UI 暴露在 http://localhost:9004(預設憑證:dev/dev),MCP 端點位於 http://localhost:9004/pixelle/mcp

Pixelle-MCP 還與 LiteLLM 整合以支援多模型,允許連接到 OpenAI、Ollama、Gemini、DeepSeek、Claude、Qwen 和其他供應商。這意味著您可以將自己喜愛的 LLM 與 ComfyUI 工作流程配對,無論您偏好哪個模型供應商。


你可以用 Pixelle-MCP 建立什麼?

MCP 原生工具調用與 ComfyUI 豐富生態系統的結合,解鎖了一系列實用應用。內容團隊可以建立自動化行銷管線,其中單一的 LLM 提示詞即可觸發圖片生成、音樂創作和影片組合。開發者可以將 AIGC 直接整合到像 Cursor 這樣的 IDE 中,方法是將 Pixelle-MCP 作為 MCP 伺服器添加,從而實現程式碼感知的視覺資產生成。

RunningHub 整合尤其值得注意:它允許使用者在雲端執行 ComfyUI 工作流程,無需任何本地 GPU,從而大幅降低了硬體入門門檻。這使得 Pixelle-MCP 對任何擁有筆記型電腦和網路連線的人來說都易於使用。


常見問題

什麼是 Pixelle-MCP? Pixelle-MCP 是由阿里巴巴 AIDC-AI 開發的開源多模態 AIGC 解決方案,透過模型上下文協議 (MCP) 橋接 ComfyUI 工作流程與 LLM。它可以讓您將任何 ComfyUI 工作流程轉換為可呼叫的 MCP 工具,無需編寫程式碼,使任何 MCP 相容用戶端都能生成圖片、文字、聲音和影片。

Pixelle-MCP 支援哪些模態? Pixelle-MCP 支援完整的 TISV 堆疊:文字生成、圖片生成、聲音/語音生成和影片生成。它透過 ComfyUI 的模組化工作流程系統結合 LLM 驅動的編排,涵蓋了四種主要的內容模態。

Pixelle-MCP 如何與 MCP 整合? Pixelle-MCP 作為 MCP 伺服器執行,透過模型上下文協議將 ComfyUI 工作流程公開為工具。任何 MCP 相容用戶端——包括 Cursor、Claude Desktop 和自訂 MCP 主機——都可以動態發現和調用這些工具。該伺服器充當自然語言指令與複雜 ComfyUI 工作流程執行之間的翻譯層。

如何部署 Pixelle-MCP? Pixelle-MCP 提供多種一鍵部署方法:uvx 單行程式碼、pip install 或 Docker Compose。它支援本地 ComfyUI 實例和 RunningHub 雲端 ComfyUI(無需 GPU)。啟動後,Web UI 可透過 http://localhost:9004 存取(登入:dev/dev),MCP 端點位於 http://localhost:9004/pixelle/mcp。

Pixelle-MCP 使用什麼授權? Pixelle-MCP 採用 MIT 授權條款,可在個人和商業專案中免費使用、修改和散佈。


延伸閱讀

TAG