StoryDiffusion:用于长序列图像与视频生成的一致性自注意力机制
StoryDiffusion 是南开大学与字节跳动的一项研究项目,针对生成式 AI 中最困难的问题之一:在长序列图像与视频中维持视觉一致性。作为一项重要的研究贡献,它引入了一种新颖的**一致性自注意力(CSA)**机制,使扩散模型能够生成连贯的漫画条、动画和视频——全部无需微调或逐序列训练 …
StoryDiffusion 是南开大学与字节跳动的一项研究项目,针对生成式 AI 中最困难的问题之一:在长序列图像与视频中维持视觉一致性。作为一项重要的研究贡献,它引入了一种新颖的**一致性自注意力(CSA)**机制,使扩散模型能够生成连贯的漫画条、动画和视频——全部无需微调或逐序列训练 …
在快速发展的视觉语言模型领域,一个来自意想不到角落的新重量级选手出现了。由字节跳动 Seed 团队开发的 Seed1.5-VL,在涵盖图像理解、视频理解、文档解析和多图像推理的 60 个公开基准测试中,惊人地在 38 项中达到了业界最佳水平。