StoryDiffusion:用於長序列影像與影片生成的一致性自注意力機制
StoryDiffusion 是南開大學與字節跳動的一項研究專案,針對生成式 AI 中最困難的問題之一:在長序列影像與影片中維持視覺一致性。作為一項重要的研究貢獻,它引入了一種新穎的**一致性自注意力(CSA)**機制,使擴散模型能夠生成連貫的漫畫條、動畫和影片——全部無需微調或逐序列訓練 …
StoryDiffusion 是南開大學與字節跳動的一項研究專案,針對生成式 AI 中最困難的問題之一:在長序列影像與影片中維持視覺一致性。作為一項重要的研究貢獻,它引入了一種新穎的**一致性自注意力(CSA)**機制,使擴散模型能夠生成連貫的漫畫條、動畫和影片——全部無需微調或逐序列訓練 …
在快速發展的視覺語言模型領域,一個來自意想不到角落的新重量級選手出現了。由字節跳動 Seed 團隊開發的 Seed1.5-VL,在涵蓋影像理解、影片理解、文件解析和多影像推理的 60 個公開基準測試中,驚人地在 38 項中達到了業界最佳水準。