ComfyUI 已成為 Stable Diffusion 圖片生成領域主流的節點式介面,透過其視覺化程式設計範例提供了前所未有的靈活性。但這種靈活性伴隨著陡峭的學習曲線:構建即使是基本的工作流程也需要理解模型檢查點、VAE、CLIP 嵌入、取樣器、排程器、潛在空間以及它們之間錯綜複雜的連接。ComfyUI-Copilot 旨在透過將 AI 助手直接嵌入到節點編輯器中,完全消除這個學習曲線。
由 AIDC-AI 研究團隊開發,ComfyUI-Copilot 是一個將大型語言模型能力整合到 ComfyUI 環境中的自訂節點。與靜態文件或外部教學不同,Copilot 直接在畫布內運作。使用者以自然語言描述他們想要建立的內容,系統就會生成對應的工作流程,包含正確連接的節點、正確的參數值以及推薦的模型選擇。
該專案隨著 2.0 版本的發佈而獲得重大關注,2.0 版本引入了完整的多代理架構。v2.0 不是由單一 LLM 調用生成工作流程,而是部署了一組專門的代理——每個代理負責工作流程開發的不同面向——它們反覆協作。這個架構嚴謹到足以被 ACL 2025(計算語言學頂級學術會議)接受,標誌著實用創意工具與同儕審查研究的罕見交集。
ComfyUI-Copilot v2.0 中的多代理架構如何運作?
v2.0 架構——稱為「Agent Nest」——將工作流程建立任務分解為五個專門角色,作為一個協調團隊運作:
graph TB
User[使用者:自然語言請求] --> RM[路由管理器]
RM --> Node[節點代理:<br>工作流程拓撲]
RM --> Debug[除錯代理:<br>錯誤診斷]
RM --> Config[配置代理:<br>模型與參數調整]
RM --> Opt[最佳化代理:<br>效能改善]
RM --> Prompt[提示詞工程代理:<br>文字提示詞最佳化]
Node --> Workflow[生成的工作流程 JSON]
Debug --> Workflow
Config --> Workflow
Opt --> Workflow
Prompt --> Workflow
Workflow --> CAN[共識聚合網路]
CAN --> Final[最終驗證的工作流程]| 代理 | 主要職責 | 知識庫 |
|---|---|---|
| 節點代理 | 生成工作流程節點拓撲和連接 | 節點定義、連接規則 |
| 除錯代理 | 診斷錯誤、尋找中斷的連接 | 錯誤模式、常見修復 |
| 配置代理 | 設定最佳模型參數 | 模型規格、VRAM 預算 |
| 最佳化代理 | 建議效能改善 | 延遲分析、批次策略 |
| 提示詞工程代理 | 最佳化文字提示詞以獲得更好的圖片品質 | 提示詞工程模式 |
路由管理器協調對話流程,根據使用者的請求決定要調用哪個代理。共識聚合網路 (CAN) 然後將來自多個代理的輸出協調為單一、連貫的工作流程 JSON,可直接載入到 ComfyUI 中。
你可以用 ComfyUI-Copilot 建立什麼?
ComfyUI-Copilot 處理 ComfyUI 工作流程的全部複雜度範圍,從基本的單模型生成到進階的多階段管線:
| 工作流程類型 | 複雜度 | Copilot 能力 |
|---|---|---|
| 文字轉圖片(單模型) | 簡單 | 從描述即時生成 |
| 圖片轉圖片搭配 ControlNet | 中等 | 自動 ControlNet 節點接線 |
| IP-Adapter + 換臉 | 中等 | 多模型整合 |
| 影片生成 (AnimateDiff) | 複雜 | 完整的 SVD 和動態模組設定 |
| 自訂 LoRA 訓練管線 | 非常複雜 | 資料載入、訓練、推理接線 |
sequenceDiagram
participant User as 使用者
participant Chat as Copilot 聊天面板
participant Agents as 多代理系統
participant Canvas as ComfyUI 畫布
participant LLM as 外部 LLM API
User->>Chat: "建立一個使用 IP-Adapter<br>的圖片轉圖片工作流程"
Chat->>LLM: 發送請求 + 上下文
LLM-->>Agents: 分解為代理任務
Agents->>Agents: 節點代理生成拓撲
Agents->>Agents: 配置代理設定參數
Agents->>Agents: 共識聚合
Agents-->>Canvas: 輸出工作流程 JSON
Canvas-->>User: 顯示視覺化工作流程
User->>Chat: "臉看起來不對"
Chat->>Agents: 除錯代理分析
Agents-->>Canvas: 建議修復:加入人臉修復節點
Canvas-->>User: 更新工作流程,已套用修復ComfyUI-Copilot 實戰:工作流程建立範例
典型的互動從使用者在 Copilot 聊天面板中輸入自然語言請求開始,該面板位於 ComfyUI 畫布旁邊。例如:
“建立一個使用 Realistic Vision 作為檢查點的圖片轉圖片工作流程,搭配 Canny ControlNet 進行結構保留。生成 1024x768 的圖片,使用 30 步 DDIM 取樣,CFG 尺度為 7。最後加入人臉修復模型。”
Copilot 透過其代理管線處理這個請求,並在幾秒內在畫布上輸出完整的工作流程。節點已完全連接,檢查點已設定(或標記為需要下載),所有參數都符合使用者的規格。使用者隨後可以手動調整個別節點,或透過後續對話要求 Copilot 最佳化特定方面。
系統需求與設定
| 元件 | 最低 | 建議 |
|---|---|---|
| ComfyUI | 最新穩定版 | 最新版搭配 Manager |
| LLM API 金鑰 | 必要 | OpenAI、Anthropic 或 Gemini |
| RAM | 8 GB | 16 GB+ |
| GPU(用於 ComfyUI) | 6 GB VRAM | 8 GB+ VRAM |
| 網路 | API 調用需要 | 寬頻 |
該節點本身很輕量——它不會載入本地 LLM 或消耗超過典型推理調用所需的 GPU VRAM。所有 LLM 處理都透過外部 API 調用進行。對於偏好本地推理的使用者,系統支援使用相容模型的 Ollama 和 vLLM 後端,不過品質和速度取決於本地模型的能力。
關於 ComfyUI-Copilot 的常見問題
ACL 2025 論文如何驗證這個方法?
ComfyUI-Copilot 被 ACL 2025 接受,為視覺工作流程生成的多代理方法提供了學術驗證。該論文在多個指標上展示了 Copilot 生成的工作流程與手動建構的工作流程的全面比較,包括:
- 正確性:首次載入時無錯誤執行的工作流程百分比
- 完整性:給定任務所需元件的覆蓋率
- 效率:與手動建構相比,首次生成圖片的時間縮短
- 使用者滿意度:由新手和專業 ComfyUI 使用者評分
研究表明,多代理架構顯著優於單代理基準,特別是對於需要多個模型整合的複雜工作流程。
AI 輔助節點式工作流程的未來
ComfyUI-Copilot 代表了創意工具中一個更廣泛的趨勢:從純手動介面過渡到 AI 中介的工作流程,使用者的意圖以自然語言表達,而工具則處理技術實作。隨著 LLM 對視覺生成管線的理解不斷改善,以及代理架構的成熟,「我想做這個」和「這是可行的成果」之間的差距將持續縮小。
該專案正在積極開發中,社群正在貢獻新的代理能力、對新興 ComfyUI 擴充功能的支援,以及與其他 LLM 供應商的整合。對於任何曾在 ComfyUI 節點圖的複雜性中掙扎的人來說,Copilot 提供了一條從想法到圖片的引人入勝的路徑,而無需中間的挫折感。
延伸閱讀
- ComfyUI-Copilot GitHub 儲存庫 — 原始碼、安裝指南和社群論壇
- ACL 2025 會議論文 — 關於多代理架構的同儕審查出版物(搜尋「ComfyUI-Copilot」)
- ComfyUI 官方儲存庫 — Copilot 所擴充的基礎平台
- ComfyUI Manager — 安裝包括 Copilot 在內的自訂節點的推薦方式
- 多代理 LLM 系統調查 — 多代理架構範例的基礎研究