AI

ComfyUI-Copilot:由 AI 驱动的助手,实现自动化工作流开发

ComfyUI-Copilot 是 ComfyUI 的一个 AI 驱动自定义节点,使用 LLM 和多智能体架构来自动化工作流的创建和调试。

ComfyUI-Copilot:由 AI 驱动的助手,实现自动化工作流开发

ComfyUI 已成为 Stable Diffusion 图片生成领域主流的节点式界面,通过其可视化编程范式提供了前所未有的灵活性。但这种灵活性伴随着陡峭的学习曲线:构建即使是基本的工作流也需要理解模型检查点、VAE、CLIP 嵌入、采样器、调度器、潜在空间以及它们之间错综复杂的连接。ComfyUI-Copilot 旨在通过将 AI 助手直接嵌入到节点编辑器中,完全消除这个学习曲线。

由 AIDC-AI 研究团队开发,ComfyUI-Copilot 是一个将大型语言模型能力整合到 ComfyUI 环境中的自定义节点。与静态文档或外部教程不同,Copilot 直接在画布内运作。用户以自然语言描述他们想要创建的内容,系统就会生成对应的工作流,包含正确连接的节点、正确的参数值以及推荐的模型选择。

该项目随着 2.0 版本的发布而获得重大关注,2.0 版本引入了完整的多智能体架构。v2.0 不是由单个 LLM 调用生成工作流,而是部署了一组专门的智能体——每个智能体负责工作流开发的不同方面——它们反复协作。这个架构严谨到足以被 ACL 2025(计算语言学顶级学术会议)接收,标志着实用创意工具与同行评审研究的罕见交集。


ComfyUI-Copilot v2.0 中的多智能体架构如何运作?

v2.0 架构——称为"Agent Nest"——将工作流创建任务分解为五个专门角色,作为一个协调团队运作:

智能体主要职责知识库
节点智能体生成工作流节点拓扑和连接节点定义、连接规则
调试智能体诊断错误、查找中断的连接错误模式、常见修复
配置智能体设置最优模型参数模型规格、VRAM 预算
优化智能体建议性能改善延迟分析、批处理策略
提示词工程智能体优化文本提示词以获得更好的图片质量提示词工程模式

路由管理器协调对话流程,根据用户的请求决定调用哪个智能体。共识聚合网络 (CAN) 然后将来自多个智能体的输出协调为单一、连贯的工作流 JSON,可直接加载到 ComfyUI 中。


你可以用 ComfyUI-Copilot 创建什么?

ComfyUI-Copilot 处理 ComfyUI 工作流的全部复杂度范围,从基本的单模型生成到高级的多阶段流水线:

工作流类型复杂度Copilot 能力
文本转图片(单模型)简单从描述即时生成
图片转图片搭配 ControlNet中等自动 ControlNet 节点接线
IP-Adapter + 换脸中等多模型集成
视频生成 (AnimateDiff)复杂完整的 SVD 和运动模块设置
自定义 LoRA 训练流水线非常复杂数据加载、训练、推理接线

ComfyUI-Copilot 实战:工作流创建示例

典型的交互从用户在 Copilot 聊天面板中输入自然语言请求开始,该面板位于 ComfyUI 画布旁边。例如:

“创建一个使用 Realistic Vision 作为检查点的图片转图片工作流,搭配 Canny ControlNet 进行结构保留。生成 1024x768 的图片,使用 30 步 DDIM 采样,CFG 尺度为 7。最后添加人脸修复模型。”

Copilot 通过其智能体流水线处理这个请求,并在几秒内在画布上输出完整的工作流。节点已完全连接,检查点已设置(或标记为需要下载),所有参数都符合用户的规格。用户随后可以手动调整个别节点,或通过后续对话要求 Copilot 优化特定方面。


系统需求与设置

组件最低建议
ComfyUI最新稳定版最新版搭配 Manager
LLM API 密钥必需OpenAI、Anthropic 或 Gemini
RAM8 GB16 GB+
GPU(用于 ComfyUI)6 GB VRAM8 GB+ VRAM
网络API 调用需要宽带

该节点本身很轻量——它不会加载本地 LLM 或消耗超过典型推理调用所需的 GPU VRAM。所有 LLM 处理都通过外部 API 调用进行。对于偏好本地推理的用户,系统支持使用兼容模型的 Ollama 和 vLLM 后端,不过质量和速度取决于本地模型的能力。


关于 ComfyUI-Copilot 的常见问题


ACL 2025 论文如何验证这个方法?

ComfyUI-Copilot 被 ACL 2025 接收,为视觉工作流生成的多智能体方法提供了学术验证。该论文在多个指标上展示了 Copilot 生成的工作流与手动构建的工作流的全面比较,包括:

  • 正确性:首次加载时无错误执行的工作流百分比
  • 完整性:给定任务所需组件的覆盖率
  • 效率:与手动构建相比,首次生成图片的时间缩短
  • 用户满意度:由新手和专业 ComfyUI 用户评分

研究表明,多智能体架构显著优于单智能体基线,特别是对于需要多个模型集成的复杂工作流。


AI 辅助节点式工作流的未来

ComfyUI-Copilot 代表了创意工具中一个更广泛的趋势:从纯手动界面过渡到 AI 中介的工作流,用户的意图以自然语言表达,而工具则处理技术实现。随着 LLM 对视觉生成流水线的理解不断改善,以及智能体架构的成熟,“我想做这个"和"这是可行的工作流"之间的差距将持续缩小。

该项目正在积极开发中,社区正在贡献新的智能体能力、对新兴 ComfyUI 扩展的支持,以及与其他 LLM 提供商的集成。对于任何曾在 ComfyUI 节点图的复杂性中挣扎的人来说,Copilot 提供了一条从想法到图片的引人入胜的路径,而无需中间过程的挫折感。


延伸阅读

TAG
CATEGORIES