Post

部落格

SoloSoft 關於軟體工程、Hugo、網站效能與多語系內容發佈的技術文章。

IndexTTS-vLLM:使用 vLLM 推論加速的開源文字轉語音
AI

IndexTTS-vLLM:使用 vLLM 推論加速的開源文字轉語音

文字轉語音技術在過去三年中取得了巨大進步。零樣本語音複製——系統可以僅從幾秒鐘的音訊合成出新語音——從研究新奇事物變成了實用工具。多說話者對話生成——可以在單一輸出中混合不同語音——從實驗性發展到生產就緒。阻礙這些能力被廣泛採用的限制因素越來越常是推論速度——輸出品質與生成速度之間的差距。 …

BetterShot:內建編輯器的開源 macOS 螢幕擷取工具
開源

BetterShot:內建編輯器的開源 macOS 螢幕擷取工具

對 macOS 使用者來說,內建的螢幕擷取工具一直功能充足但受限。Apple 提供的功能(自 macOS Mojave 以來的螢幕截圖快速鍵)與進階使用者所需的功能(標註、背景、快速編輯)之間的差距,一直由 CleanShot X(29 美元以上)和 Skitch 等商業工具填補。到了 …

StoryDiffusion:用於長序列影像與影片生成的一致性自注意力機制
AI

StoryDiffusion:用於長序列影像與影片生成的一致性自注意力機制

StoryDiffusion 是南開大學與字節跳動的一項研究專案,針對生成式 AI 中最困難的問題之一:在長序列影像與影片中維持視覺一致性。作為一項重要的研究貢獻,它引入了一種新穎的**一致性自注意力(CSA)**機制,使擴散模型能夠生成連貫的漫畫條、動畫和影片——全部無需微調或逐序列訓練 …

Nexus Skills:用於 AI 編碼助手的原生程式碼庫智慧
AI

Nexus Skills:用於 AI 編碼助手的原生程式碼庫智慧

Nexus Skills 是一個開源工具,解決 AI 輔助開發中最昂貴的問題之一:程式碼庫上下文。當你告訴 AI 編碼助手「找出使用者驗證在哪裡處理」時,它要麼需要將整個程式碼庫放入其上下文視窗(消耗數千個 token),要麼你必須手動搜尋並貼上相關檔案(浪費你的時間)。Nexus …

LightRAG:簡單快速的圖形檢索增強生成框架
AI

LightRAG:簡單快速的圖形檢索增強生成框架

LightRAG 是香港大學 (HKU) 的一項研究專案,重新想像了使用知識圖譜的檢索增強生成(RAG)。該專案已被 EMNLP 2025 收錄,以基於圖形的架構取代傳統的平面向量儲存方法,從文件中提取實體及其關係,為 LLM 應用提供顯著更好的上下文理解。

TAG