StoryDiffusion:用於長序列影像與影片生成的一致性自注意力機制
StoryDiffusion 是南開大學與字節跳動的一項研究專案,針對生成式 AI 中最困難的問題之一:在長序列影像與影片中維持視覺一致性。作為一項重要的研究貢獻,它引入了一種新穎的**一致性自注意力(CSA)**機制,使擴散模型能夠生成連貫的漫畫條、動畫和影片——全部無需微調或逐序列訓練 …
StoryDiffusion 是南開大學與字節跳動的一項研究專案,針對生成式 AI 中最困難的問題之一:在長序列影像與影片中維持視覺一致性。作為一項重要的研究貢獻,它引入了一種新穎的**一致性自注意力(CSA)**機制,使擴散模型能夠生成連貫的漫畫條、動畫和影片——全部無需微調或逐序列訓練 …
LLaMA-VID(大型語言與影片助手)是 ECCV 2024 的研究專案,針對 LLM 影片理解中的根本瓶頸:Token 效率。雖然現代 LLM 擁有 128K 到 200K Token 的上下文視窗,但先前的多模態方法每個影片幀消耗 100 到 500 個 Token,使得即使是短暫的 …
Animate Anyone 是阿里巴巴 HumanAIGC 團隊的一項研究專案,能將單張照片轉變為人物行走、跳舞或執行任何姿勢序列的完整動畫影片——同時以非凡的保真度維持角色的身份、服裝和外觀。它代表了使用擴散模型進行影像到影片合成最令人印象深刻的應用之一。