開源

AI May 03, 2026

Linly-Talker：開源數位虛擬人物對話系統

能夠進行自然對話的數位虛擬人物——看到你的臉、聽到你的聲音、以同步的唇部動作和表情回應——幾十年來一直是科幻小說的主要元素。到了 2026 年，它已成為一個可以在你自己的硬體上運行的開源專案。 Linly-Talker 是由 Kedreamix 團隊開發的全面開源數位虛擬人物對話系統。它將 …

AI May 03, 2026

文字轉語音技術在過去三年中取得了巨大進步。零樣本語音複製——系統可以僅從幾秒鐘的音訊合成出新語音——從研究新奇事物變成了實用工具。多說話者對話生成——可以在單一輸出中混合不同語音——從實驗性發展到生產就緒。阻礙這些能力被廣泛採用的限制因素越來越常是推論速度——輸出品質與生成速度之間的差距。 …

開源 May 03, 2026

對 macOS 使用者來說，內建的螢幕擷取工具一直功能充足但受限。Apple 提供的功能（自 macOS Mojave 以來的螢幕截圖快速鍵）與進階使用者所需的功能（標註、背景、快速編輯）之間的差距，一直由 CleanShot X（29 美元以上）和 Skitch 等商業工具填補。到了 …

AI May 02, 2026

StoryDiffusion 是南開大學與字節跳動的一項研究專案，針對生成式 AI 中最困難的問題之一：在長序列影像與影片中維持視覺一致性。作為一項重要的研究貢獻，它引入了一種新穎的**一致性自注意力（CSA）**機制，使擴散模型能夠生成連貫的漫畫條、動畫和影片——全部無需微調或逐序列訓練 …

AI May 02, 2026

Nexus Skills 是一個開源工具，解決 AI 輔助開發中最昂貴的問題之一：程式碼庫上下文。當你告訴 AI 編碼助手「找出使用者驗證在哪裡處理」時，它要麼需要將整個程式碼庫放入其上下文視窗（消耗數千個 token），要麼你必須手動搜尋並貼上相關檔案（浪費你的時間）。Nexus …

AI May 02, 2026

LLaMA-VID（大型語言與影片助手）是 ECCV 2024 的研究專案，針對 LLM 影片理解中的根本瓶頸：Token 效率。雖然現代 LLM 擁有 128K 到 200K Token 的上下文視窗，但先前的多模態方法每個影片幀消耗 100 到 500 個 Token，使得即使是短暫的 …