多模態

AI May 05, 2026

GLM-4.5：智譜 AI 的次世代多模態基礎模型

2025-2026 年基礎模型的演進由兩個趨勢定義：多模態化和效率。只能處理文字的模型已迅速讓位給原生理解圖片、音訊和影片的模型。同時，專家混合（MoE）架構已成為建構既強大又實用於部署的模型的標準方法。智譜 AI 的 GLM-4.5 代表了這些趨勢在中文 AI 生態系統中的匯聚。

AI May 03, 2026

Qwen2.5-Omni 是阿里巴巴的旗艦開源多模態 AI 模型，由阿里雲的 QwenLM 團隊開發。作為一個統一的端到端模型，Qwen2.5-Omni 可以同時感知與理解文字、圖像、音訊與影片輸入，同時產生串流文字與自然語音輸出——全部在單一架構內完成。

AI May 03, 2026

能夠進行自然對話的數位虛擬人物——看到你的臉、聽到你的聲音、以同步的唇部動作和表情回應——幾十年來一直是科幻小說的主要元素。到了 2026 年，它已成為一個可以在你自己的硬體上運行的開源專案。 Linly-Talker 是由 Kedreamix 團隊開發的全面開源數位虛擬人物對話系統。它將 …

AI May 02, 2026

在快速發展的視覺語言模型領域，一個來自意想不到角落的新重量級選手出現了。由字節跳動 Seed 團隊開發的 Seed1.5-VL，在涵蓋影像理解、影片理解、文件解析和多影像推理的 60 個公開基準測試中，驚人地在 38 項中達到了業界最佳水準。