Categories

開源

InternVL:擴展至 241B 參數的開源視覺語言模型系列
AI

InternVL:擴展至 241B 參數的開源視覺語言模型系列

InternVL 是由上海人工智慧實驗室的 OpenGVLab 開發的一系列開源視覺語言基礎模型。InternVL 系列將視覺 Transformer 擴展至 60 億個參數,並逐步與大型語言模型對齊,建立統一架構,在多項多模態基準測試中達到 GPT-4o 等級的表現。旗艦模型 …

GPT-SoVITS:僅需 1 分鐘語音資料的少量樣本語音複製
AI

GPT-SoVITS:僅需 1 分鐘語音資料的少量樣本語音複製

GPT-SoVITS 是由 RVC-Boss 開發的開源語音複製與文字轉語音系統,在 AI 音訊社群中引起轟動。該專案的突出能力是僅需 1 分鐘語音資料即可訓練令人信服的語音模型的少量樣本語音複製,而零樣本能力只需 5-10 秒的參考音訊。支援中文、英文、日文與韓文,GPT-SoVITS …

GPT Pilot:逐步編寫應用程式的 AI 開發者
AI

GPT Pilot:逐步編寫應用程式的 AI 開發者

GPT Pilot 是由 Pythagora-io 開發的開源 AI 開發者夥伴,採用與傳統 AI 程式碼生成 fundamentally 不同的方法。GPT Pilot 不是在單一提示中生成整個應用程式,而是實作一個逐步開發流程,模仿人類軟體開發團隊的工作方式——從需求分析開始,經過架構 …

Agent-Reach:AI 代理觸及框架
AI

Agent-Reach:AI 代理觸及框架

Agent-Reach 是由 Panniantong 開發的開源 AI 代理框架,專注於擴展 AI 代理跨多個平台、工具與服務的觸及範圍。該框架提供一個統一的抽象層,讓 AI 代理能夠透過標準化介面發現、連接與操作多樣化的工具與 API,大幅擴展自主代理的能力。 該專案解決了 AI 代理生 …

LTX-2:Lightricks 開源 4K 音訊-影片基礎模型
AI

LTX-2:Lightricks 開源 4K 音訊-影片基礎模型

生成式 AI 的格局已被影像擴散模型以及最近的影片擴散模型所改變。但生成聽起來和看起來一樣好的影片一直是一個頑固的獨立問題——直到現在。LTX-2 完全改變了這個局面。 由 Lightricks(熱門創意工具 Facetune 和 LTX Studio 背後的公司)開發,LTX-2 是首個 …

TAG