8GB VRAM 跑得動 12B 模型?本地 AI 圖片生成的模型選擇思路
最近在建一條本地 AI 影片生成流水線,需要挑一個 T2I 模型做 keyframe 的上游。 硬體限制是 RTX 3070 Laptop,8GB VRAM,不能加卡。 挑模型的過程裡,順帶整理了一些平時容易混淆的概念,以及讓系統跑穩的幾個關鍵設定。 Fine-tune、LoRA、Distill 是三件不同的事 這三個詞在中文圈常常被混在一起講,但它們根本不是同一個維度: Fine-tune LoRA Distill 改什麼 畫風 / 內容 畫風 / 內容(同上) 推論速度 訓練範圍 整個模型 只訓練插件權重 訓練速度更快的學生模型 檔案大小 跟 base 一樣大 50–300 MB 跟 base 一樣大 可以疊? ✗ 一次一個 ✓ 可以同時掛多個 ✗ 換 checkpoint 這三件事可以疊在同一個工作流裡。juggernautXL_v9-lightning.safetensors 這個常見的模型, 本質就是寫實 fine-tune + Lightning distill 的組合;用它的時候還可以再加角色 LoRA + 風格 LoRA。 弄清楚這個,選模型的時候就不會被名字搞混。 8GB VRAM 的候選名單 把常見的選項排一遍: 模型 VRAM 1024² 出圖時間 品質 8GB 可行? SDXL Lightning(4–8 步) ~7 GB 4–6 s ★★★★☆ ✓ SDXL base + fine-tune(30 步) ~7 GB 15–22 s ★★★★☆ ✓ Flux Schnell GGUF Q4_K_M ~7 GB + offload 15–20 s ★★★★★ ✓ Flux Dev GGUF Q4_K_M ~7 GB + offload 60–90 s ★★★★★ ✓ 但慢 Flux fp16 12 GB+ — ★★★★★ ✗ 12B 的 Flux 為什麼能塞進 8GB?靠 GGUF Q4_K_M 量化——精度損失大約 5–10%, 但 Flux 的 prompt 理解能力幾乎全保留。Q4_K_M 是 4-bit 量化裡品質與速度的甜蜜點, Q4 還是 Flux 級的,不是閹割版。 ...