AI

ComfyUI-Copilot:由 AI 驅動的助手,實現自動化工作流程開發

ComfyUI-Copilot 是 ComfyUI 的一個 AI 驅動自訂節點,使用 LLM 和多代理架構來自動化工作流程的建立和除錯。

ComfyUI-Copilot:由 AI 驅動的助手,實現自動化工作流程開發

ComfyUI 已成為 Stable Diffusion 圖片生成領域主流的節點式介面,透過其視覺化程式設計範例提供了前所未有的靈活性。但這種靈活性伴隨著陡峭的學習曲線:構建即使是基本的工作流程也需要理解模型檢查點、VAE、CLIP 嵌入、取樣器、排程器、潛在空間以及它們之間錯綜複雜的連接。ComfyUI-Copilot 旨在透過將 AI 助手直接嵌入到節點編輯器中,完全消除這個學習曲線。

由 AIDC-AI 研究團隊開發,ComfyUI-Copilot 是一個將大型語言模型能力整合到 ComfyUI 環境中的自訂節點。與靜態文件或外部教學不同,Copilot 直接在畫布內運作。使用者以自然語言描述他們想要建立的內容,系統就會生成對應的工作流程,包含正確連接的節點、正確的參數值以及推薦的模型選擇。

該專案隨著 2.0 版本的發佈而獲得重大關注,2.0 版本引入了完整的多代理架構。v2.0 不是由單一 LLM 調用生成工作流程,而是部署了一組專門的代理——每個代理負責工作流程開發的不同面向——它們反覆協作。這個架構嚴謹到足以被 ACL 2025(計算語言學頂級學術會議)接受,標誌著實用創意工具與同儕審查研究的罕見交集。


ComfyUI-Copilot v2.0 中的多代理架構如何運作?

v2.0 架構——稱為「Agent Nest」——將工作流程建立任務分解為五個專門角色,作為一個協調團隊運作:

代理主要職責知識庫
節點代理生成工作流程節點拓撲和連接節點定義、連接規則
除錯代理診斷錯誤、尋找中斷的連接錯誤模式、常見修復
配置代理設定最佳模型參數模型規格、VRAM 預算
最佳化代理建議效能改善延遲分析、批次策略
提示詞工程代理最佳化文字提示詞以獲得更好的圖片品質提示詞工程模式

路由管理器協調對話流程,根據使用者的請求決定要調用哪個代理。共識聚合網路 (CAN) 然後將來自多個代理的輸出協調為單一、連貫的工作流程 JSON,可直接載入到 ComfyUI 中。


你可以用 ComfyUI-Copilot 建立什麼?

ComfyUI-Copilot 處理 ComfyUI 工作流程的全部複雜度範圍,從基本的單模型生成到進階的多階段管線:

工作流程類型複雜度Copilot 能力
文字轉圖片(單模型)簡單從描述即時生成
圖片轉圖片搭配 ControlNet中等自動 ControlNet 節點接線
IP-Adapter + 換臉中等多模型整合
影片生成 (AnimateDiff)複雜完整的 SVD 和動態模組設定
自訂 LoRA 訓練管線非常複雜資料載入、訓練、推理接線

ComfyUI-Copilot 實戰:工作流程建立範例

典型的互動從使用者在 Copilot 聊天面板中輸入自然語言請求開始,該面板位於 ComfyUI 畫布旁邊。例如:

“建立一個使用 Realistic Vision 作為檢查點的圖片轉圖片工作流程,搭配 Canny ControlNet 進行結構保留。生成 1024x768 的圖片,使用 30 步 DDIM 取樣,CFG 尺度為 7。最後加入人臉修復模型。”

Copilot 透過其代理管線處理這個請求,並在幾秒內在畫布上輸出完整的工作流程。節點已完全連接,檢查點已設定(或標記為需要下載),所有參數都符合使用者的規格。使用者隨後可以手動調整個別節點,或透過後續對話要求 Copilot 最佳化特定方面。


系統需求與設定

元件最低建議
ComfyUI最新穩定版最新版搭配 Manager
LLM API 金鑰必要OpenAI、Anthropic 或 Gemini
RAM8 GB16 GB+
GPU(用於 ComfyUI)6 GB VRAM8 GB+ VRAM
網路API 調用需要寬頻

該節點本身很輕量——它不會載入本地 LLM 或消耗超過典型推理調用所需的 GPU VRAM。所有 LLM 處理都透過外部 API 調用進行。對於偏好本地推理的使用者,系統支援使用相容模型的 Ollama 和 vLLM 後端,不過品質和速度取決於本地模型的能力。


關於 ComfyUI-Copilot 的常見問題


ACL 2025 論文如何驗證這個方法?

ComfyUI-Copilot 被 ACL 2025 接受,為視覺工作流程生成的多代理方法提供了學術驗證。該論文在多個指標上展示了 Copilot 生成的工作流程與手動建構的工作流程的全面比較,包括:

  • 正確性:首次載入時無錯誤執行的工作流程百分比
  • 完整性:給定任務所需元件的覆蓋率
  • 效率:與手動建構相比,首次生成圖片的時間縮短
  • 使用者滿意度:由新手和專業 ComfyUI 使用者評分

研究表明,多代理架構顯著優於單代理基準,特別是對於需要多個模型整合的複雜工作流程。


AI 輔助節點式工作流程的未來

ComfyUI-Copilot 代表了創意工具中一個更廣泛的趨勢:從純手動介面過渡到 AI 中介的工作流程,使用者的意圖以自然語言表達,而工具則處理技術實作。隨著 LLM 對視覺生成管線的理解不斷改善,以及代理架構的成熟,「我想做這個」和「這是可行的成果」之間的差距將持續縮小。

該專案正在積極開發中,社群正在貢獻新的代理能力、對新興 ComfyUI 擴充功能的支援,以及與其他 LLM 供應商的整合。對於任何曾在 ComfyUI 節點圖的複雜性中掙扎的人來說,Copilot 提供了一條從想法到圖片的引人入勝的路徑,而無需中間的挫折感。


延伸閱讀

TAG