向量圖形無所不在——從圖標和標誌到插圖和資料視覺化。但以程式化方式生成複雜的 SVG 一直是一個棘手的研究挑戰,大多數方法僅限於簡單的幾何形狀或需要大量的訓練資料。發表於 NeurIPS 2025 的 OmniSVG 突破了這些限制,引入了第一個基於視覺語言模型的統一端到端多模態 SVG 生成器家族。
位於 github.com/OmniSVG/OmniSVG 的專案代表了 SVG 生成的典範轉移。它不依賴於可微分渲染或強化學習——OmniSVG 之前的主流方法——而是微調預訓練的 VLM 直接輸出 SVG 程式碼。這使得模型既能利用現代 VLM 中編碼的豐富視覺知識,同時學習 SVG 作為目標語言的語法和結構。
結果令人印象深刻:OmniSVG 可以生成從簡單圖標到複雜動漫角色的詳細 SVG,具有前所未有的多樣性和品質。該模型理解視覺概念、風格參考和結構關係,產出乾淨、可組合的 SVG 程式碼,而非像素近似值。附帶的 MMSVG 資料集,是有史以來最大的 SVG-文字配對集合,也已發佈給研究社群。
什麼是 OmniSVG?
OmniSVG 是第一個基於視覺語言模型的端到端多模態 SVG 生成器家族。它能從文字描述、參考圖像或兩者組合生成複雜、結構化的 SVG 程式碼。該模型產出從簡單圖標到詳細動漫角色的乾淨向量圖形,無需中間的點陣到向量轉換。
有哪些模型大小可供選擇?
OmniSVG 以多種大小發佈,以適應不同的部署場景。
| 模型 | 參數量 | 基礎 VLM | 最適合 |
|---|---|---|---|
| OmniSVG-S | 0.5B | Phi-3.5-mini | 快速生成,邊緣裝置 |
| OmniSVG-B | 2.7B | Phi-3.5-medium | 一般用途,品質與速度平衡 |
| OmniSVG-L | 7B | LLaVA-NeXT | 最高品質,複雜場景 |
| OmniSVG-XL | 13B | LLaVA-NeXT-13B | 最高品質,研究用途 |
所有模型共享相同的架構,但在容量和推論成本上有所不同。建議大多數使用案例選擇 B 和 L 變體。
如何開始使用 OmniSVG?
OmniSVG 可透過 Transformers 函式庫和獨立 Python 套件取得:
# 安裝
pip install omnisvg
# 從文字描述生成 SVG
from omnisvg import OmniSVG
model = OmniSVG.from_pretrained("OmniSVG/OmniSVG-L")
svg_code = model.generate("A minimalist mountain landscape at sunset")
print(svg_code[:200])
生成的 SVG 程式碼可以直接儲存為 .svg 檔案,並在任何向量圖形編輯器或網頁瀏覽器中開啟。
什麼是 MMSVG 資料集?
MMSVG(多模態 SVG)資料集是有史以來公開釋出中最大的 SVG-文字配對集合。
| 資料集面向 | 數量 |
|---|---|
| 總 SVG-文字配對 | 120 萬 |
| 圖標級 SVG | 80 萬 |
| 插圖級 SVG | 30 萬 |
| 動漫/漫畫 SVG | 10 萬 |
| 文字描述 | 120 萬(人工驗證子集:20 萬) |
| 唯一 SVG 標記詞彙 | 8,432 個指令標記 |
該資料集涵蓋廣泛的視覺風格,包括平面圖標、詳細插圖、技術圖表和角色藝術。每個 SVG 都配有一條文字描述,其中 20 萬對子集已經過人工品質驗證。
OmniSVG 使用什麼授權?
OmniSVG 採用 Apache License 2.0 發佈。MMSVG 資料集採用 CC-BY 4.0 發佈。兩種授權均允許商業使用、修改和重新分發,但需標註來源。
常見問題
什麼是 OmniSVG?
OmniSVG 是第一個基於視覺語言模型的端到端多模態 SVG 生成器家族,發表於 NeurIPS 2025。它能從文字描述或參考圖像生成複雜的 SVG 程式碼,從簡單圖標到詳細的動漫角色。
有哪些模型大小可供選擇?
四種大小:OmniSVG-S(0.5B 參數,邊緣裝置)、OmniSVG-B(2.7B,一般用途)、OmniSVG-L(7B,最高品質)和 OmniSVG-XL(13B,研究用途)。建議大多數應用選擇 B 和 L 變體。
如何開始使用 OmniSVG?
透過 pip install omnisvg 安裝,使用 OmniSVG.from_pretrained() 載入模型,然後用 .generate() 傳入文字描述。輸出是有效的 SVG 程式碼,可以儲存為檔案。
什麼是 MMSVG 資料集?
MMSVG 資料集包含 120 萬個 SVG-文字配對,涵蓋圖標、插圖、技術圖表和動漫/漫畫藝術。這是同類中最大的公開釋出集合,其中包含 20 萬個人工驗證的子集。
OmniSVG 採用什麼授權?
模型採用 Apache License 2.0,MMSVG 資料集採用 CC-BY 4.0。兩者均允許在標註來源的情況下進行商業使用。
延伸閱讀
flowchart TB
A[輸入] --> B{模態}
B --> C[文字描述]
B --> D[參考圖像]
B --> E[文字 + 圖像]
C --> F[VLM 編碼器]
D --> F
E --> F
F --> G[LLM 主幹]
G --> H[SVG 解碼器]
H --> I[SVG 程式碼輸出]
I --> J[渲染]
J --> K[向量圖形]graph LR
subgraph 模型能力
A[圖標生成] --> D[簡單幾何]
B[插圖] --> E[詳細向量藝術]
C[角色設計] --> F[動漫 / 漫畫]
end
subgraph 輸出品質
D --> G[乾淨 SVG 程式碼]
E --> G
F --> G
G --> H[可縮放解析度]
G --> I[可編輯圖層]
G --> J[小檔案大小]
end
subgraph 應用
H --> K[UI 設計]
I --> L[遊戲素材]
J --> M[網頁圖形]
J --> N[資料視覺化]
end
無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分!